Заявление Сбера о разработке алгоритма, позволяющего определить вероятность заболевания COVID-19 по звуку, удивило специалистов, которые занимаются этим с ноября 2019-го. Дмитрий Михайлов рассказал «Фонтанке», сколько тысяч кхе-кхе отслушал их институт и почему ему интересно взглянуть на патенты Сбербанка.
Анализировать звук кашля, чтобы сравнить его с кашлем больного, — технология не новая. Еще четыре года назад в AppStore появилось приложение, которое позволяло таким образом определить тип респираторного заболевания у свиней. Однако Сбер удивил многих — подходом и скоростью.
Старший научный сотрудник лаборатории математического моделирования сложных систем (Отделение теоретической физики им. И. Е.Тамма, ФИАН), кандидат физико-математических наук Дмитрий Михайлов занимается темой акустической уникальности коронавирусного кашля еще с ноября 2019 года, когда в научной литературе впервые стали появляться сообщения о его специфичности. С тех пор сразу несколько крупных мировых научных центров занялись исследованием этой темы. Это американский MIT, британский Кембриджский университет, швейцарский EPFL и российский ФИАН.
— По данным специалистов, точность ПЦР-тестов, которыми сейчас все пользуются, — 65–75%. Очень часто речь идет о ложноположительных или ложноотрицательных результатах. Авторы технологии определения коронавируса по звуку кашля говорят о гораздо большей точности — 80%. Вы делаете альтернативу ПЦР-тестам?
— У нас сейчас 95%. Но это нельзя даже сравнивать. Не у всех больных коронавирусом появляется кашель. Так что у нас это только проверка одного симптома. А один симптом не позволяет ставить диагноз. Да, у COVID-19 есть характерный кашель. Но у некоторых его нет. Так что только по одному кашлю ни в коем случае нельзя ставить диагноз. Про нашу технологию правильнее всего говорить, что она с точностью 95% определяет кашель ковидной пневмонии. Она очень специфична. И если она протекает с кашлем, то по нему как раз и можно делать суждения о том, что речь идет именно о коронавирусе.
— Еще в ноябре мы видели телеграм-бот, который предлагал покашлять в телефон и говорил, похоже это на кашель больного коронавирусом или нет. Тогда это воспринималось как шутка, не имеющая отношения к серьезной науке и диагностике. Но одна московская компания в рамках проекта Acoustery предлагает лицензию на аналогичную технологию для применения в бизнесе.
— Это наш телеграм-бот. И мы уже много кому дали доступ к нашей технологии. Acoustery — это тоже наш сайт. Дело в том, что мы институт Академии наук и мы не имеем права коммерциализировать наши разработки. Так что мы отдаем лицензии в частные компании, и уже они идут на рынок.
— Когда ваша группа начала заниматься конкретно этой проблемой? И что этому предшествовало?
— Мы занимаемся акустикой в институте всю жизнь. Некоторые наши специалисты по 15–20 лет занимаются конкретно анализом спектрограмм и их преобразованиями. Это целое направление в математике. Мы много чего, в силу специфики института, анализировали. Есть открытые тематики, а есть закрытые. Из открытого — изучения постукиваний в технике, например в двигателях, которые люди не слышат, но акустическими методами можно очень много чего понять. И последние 20 лет как раз занимаемся проектами, связанными с преобразованиями Фурье.
Именно ковидным кашлем мы начали заниматься год назад. Как только в Китае появились первые публикации о специфичности кашля, в ноябре 2019 года. Наша внутренняя работа открылась в январе, так что ровно год прошел.
— Чем занимается участник проекта в вашей группе? Вот он приходит с утра, садится за стол... и что делает?
— Он берет звуковой файл, превращает его с помощью математических выкладок в спектрограмму (про это вчера много уже написали) — в визуальное представление кашля. По факту это не двух-, а трехмерная картинка. Математик работает в паре с медиком, с профессиональным пульмонологом, вместе сидят, слушают и смотрят каждый пик на этой спектрограмме. Они этот пик классифицируют, пульмонолог говорит, что он слышит, математик делает пометки, и на каждом кашле появляется куча меток. И когда этих меток появляется достаточно много, только после этого система искусственного интеллекта может по ним пробежаться и по уже изученному алгоритму будет увеличивать точность. Например, с 95 до 97%, то есть не более 2% точности добавить. А вот сама разверстка в трехмерном пространстве делается вручную. И изучение ее пульмонологом делается вручную. Это большая работа.
Также надо понимать, что кашель ковидного больного у курящего и некурящего — разный. И система искусственного интеллекта это не определит. И там еще много переменных: женщина — мужчина, были заболевания или нет, курит — нет, возраст, объем легких, даже вес имеет значение. Параметров настолько много, что искусственный интеллект на это не способен. Если же мы отфильтровываем эти параметры математическими методами, делаем так называемый паттерный анализ, мы получаем уже совсем другую точность.
— Судя по всему, этой же темой много кто занимается за границей. Получается, это какая-то простая технология?
— Нет. Это очень сложная технология. И вы сами можете обратить внимание на то, что это делают только ведущие мировые научно-технические институты. А ни одна частная компания на это не решилась. Для этого нужна очень сильная математическая школа именно с теоретическим бэкграундом. Искусственный интеллект — это все ерунда, им одним точности выше 70–80% не достичь. Там должна быть серьезная математика. Дело в том, что в первую очередь — это преобразования Фурье, с которыми работает очень ограниченное число институтов в мире. Во всех четырех центрах, которые публикуют сейчас свои исследования по этой теме, очень сильные математические факультеты.
— Насколько ваша разработка может быть сопоставима с тем, что делают ваши коллеги?
— Мы общаемся по научной линии с коллегами уже давно, знаем работы друг друга. Это одна и та же технология, да. Но только не со Сбербанком. А с тем, что делают MIT и швейцарцы.
— А чем принципиально ваша технология отличается от того, что делает Сбер?
— В лаборатории Сбера работают очень хорошие сотрудники и качественные специалисты. Но решить эту проблему так, как пытаются они, с помощью искусственного интеллекта, не получится. Он делает только часть работы. Безусловно, очень важную, но часть. А преобразования Фурье, которые мы используем, — это куда более сложная математика. Ровно поэтому все зарубежные новости на эту тему, которые мы слышим, идут из фундаментальных НИИ. Ни один Google со своими очень большими компетенциями эту проблему решить не может. И «Яндекс» не пошел в это. Потому что эти огромные корпорации набрали очень компетентных сотрудников в области искусственного интеллекта, но это не та проблема. Это как гвозди забивать дрелью. Можно, но плохо получится.
(«Фонтанка» попросила Сбер обрисовать технологию его приложения. Вот что ответила компания: «Принцип действия разработанного Сбером алгоритма следующий: звуковые файлы с помощью специального преобразования Фурье превращаются в Мел-спектрограмму, показывающую энергию звука на разных частотах, и далее анализируются с помощью глубокой свёрточной нейронной сети, выдавая пользователю тот или иной результат. Что касается точности предсказания, то мы ранее сообщали, что наша модель пока не достигает точности биологического ПЦР, но уже сейчас имеет сопоставимые характеристики». — Прим. ред.)
— В Сбере заявляют, что так же, как и вы, применяют преобразования Фурье для превращения звуковых файлов в спектрограмму и лишь потом анализируют её нейросетью.
— Для того чтобы делать это всерьез, нужно заниматься этим годами. За рубежом этим занимаются только специализированные НИИ. Ведь это технология двойного назначения. Ведь такие быстрые преобразования используются для расчета очень многих вещей, как, например, траекторий всего, что летает. Эти технологии изначально — прерогатива государства, потому что очень дорого этими вещами заниматься.
— Но ведь преобразования Фурье — общедоступный инструмент, его изучают в вузах. Они же не могут быть хорошими и правильными у вас и неправильными у частных лабораторий?
— Все зависит от того, как с этим работать, что с этим делать и как модифицировать под конкретную вещь. Если мы посмотрим подробнее, преобразования Фурье — это лишь одно из вейвлет-преобразований. Математический аппарат для анализа аудиофайлов — это большой набор технологий, которыми занимаются ведущие НИИ в разных странах долгое время. И речь не только о Фурье, там работа и с другими сложными математическими преобразованиями.
Посмотрите, Сбербанк впервые заявил, что будет этим заниматься, в ноябре 2020 года, а уже сейчас они говорят, сделали первую версию. Они что, с ноября освоили Фурье и все вейвлет-преобразования? То есть за месяц все уже сделали? Так просто не бывает. Это настолько смешно, что не поддается никаким комментариям. Посмотрите MIT, который занимался этим год с собственной клиникой внутри с подключением нескольких научных групп, в которых искусственный интеллект — это последний из этапов. Мы также проводим исследования на базе клиник в структуре Академии наук.
— Так, может быть, это как с Илоном Маском, который как раз и замахнулся на ту сферу, которая исторически была двойного назначения и прерогативой только государства. Над которым Рогозин потешался-потешался, а оно вон как вышло. Не может быть такого, что в Сбере такие классные специалисты, что смогли за месяц решить проблему, над которой вы, Кембридж и MIT бились год, а до этого десятилетия готовили научную базу?
— Ну, если они действительно научились всему этому за месяц, то для всей академической структуры это странновато.
— А вы знакомы с этими специалистами Сбера? Представляете себе, что они из себя представляют как ученые?
— Да, конечно. Они же к нам приезжали, спрашивали, интересовались, как мы работаем. Как раз в начале ноября, сразу после того, как объявили, что будут этой темой заниматься. Своих каких-то наработок они нам не показывали. Сейчас их патенты выйдут, и мы посмотрим, что они использовали из нашего. В суд-то мы можем подавать только после этого. Мы уже тоже подали на патенты, где-то через полгода они будут. Обычно года полтора на это уходит.
— То есть, в принципе, может быть такое, что Сбер что-то у вас подглядел, когда приезжал?
— Да. Я думаю, да. Ну, не страшно.
— Для науки это мелочи, да?
— Конечно.
(«Фонтанка» cпросила Сбер, насколько уместно в данном случае говорить о промышленном шпионаже. «Без комментариев», — ответили в компании. — Прим. ред.)
— А если придется защищать ваши достижения, у вас хватит ресурсов? Это же все-таки большой и страшный Сбербанк?
— Ну, тут уже как руководство Академии с ними будет договариваться. В любом случае эта разборка — или не разборка — станет возможна, только когда патенты выйдут. Тогда будет о чем говорить с ними.
— Каковы следующие шаги вашего коллектива в улучшении технологии?
— Мы повышаем точность и снижаем требования к вычислителям. То есть к железу, на котором это делается. Потому что все эти преобразования Фурье и другие вычисления, которые мы используем, — достаточно объемные вещи, у них серьезные требования к процессорной технике. Сейчас мы сделаем так, чтобы это работало на встраиваемых устройствах, повышаем точность. И набираем большущую базу данных подтвержденных ковидных больных с их акустикой, для того, чтобы проанализировать и повысить точность.
— А сколько сейчас записей кашля в вашей библиотеке?
— 40 тысяч записей.
— А у вас же уже есть какие-то пользовательские версии в тестовом режиме? Тот же самый телеграм-бот. Когда ваша система определяет, что кашель пользователя похож на ковидный кашель, его кашель включается в библиотеку?
— Нет, у нас только с ПЦР-тестом и с анамнезом. Анамнез тоже важен. Если мы сейчас скажем, что этот кашель ковидный, без характеристик конкретного человека, это заявление никакого значения не имеет. Должен быть анамнез.
— Вам известно о каких-то коммерческих внедрениях вашей технологии?
— Сегодня без разрешения Росздравнадзора это может приравниваться к преступной халатности — такие вещи внедрять. За границей внутри корпораций при разрешающих внутренних документах это еще возможно. Когда результат показывается не человеку, а оператору, который уже может принять какое-то решение. То есть выявление группы риска.
— Интересно, каково вам слышать от вице-президента Сбербанка о том, что они только пару месяцев назад заявили о готовности создать такой алгоритм, а сейчас уже анонсируют пользовательское приложение для AppStore?
— Пока что Росздравнадзор не выдал им регистрационного удостоверения медицинского изделия. И вряд ли это случится в ближайшее время.
— А программный код тоже может быть медицинским изделием и его надо регистрировать? Не надо его облекать в какую-то форму именно устройства с микрофоном?
— Последние постановления Минздрава позволяют и медицинское программное обеспечение регистрировать как медизделие. Есть пример, пока только один в России, — программное средство, которое по МРТ-снимкам позволяет давать помощь врачу. Здесь очень важны формулировки. Это не может быть показано клиенту или пациенту. Это всегда — лишь «система поддержки в принятии врачебного решения». Такой вот ГОСТовский термин. По кашлю нельзя ставить диагноз. Это только один из элементов, который принимается во внимание врачом, который ставит диагноз. А программное средство сделать этого не может и ничего об этом сказать пациенту или клиенту не может.
(Сейчас телеграм-бот по определению ковида по кашлю при попытке им воспользоваться отвечает, что не доступен. Еще несколько месяцев назад он выдавал результаты наподобие: диагноз — здоров; вероятность диагноза — 71%. — Прим. ред.)
— А вы двигаетесь в сторону того, чтобы признать ваше программное средство медизделием?
— Да, мы этим занимаемся, но прокомментировать я это не смогу — очень чувствительная тема.
— Каким же путем может пойти Сбер, чтобы запустить такой проект, о котором они говорят?
— Честно говоря, затрудняюсь это сказать.
(Комментарий Сбера по поводу своего продукта: «Это не медицинский диагностический инструмент, а скорее персональный ежедневный чекер. Метод быстрой проверки не заменяет медицинский тест (ПЦР) и не ставит диагноз — это может сделать только врач»).
Денис Лебедев, «Фонтанка.ру»