Как соотносятся официальные данные по COVID-19 с тем, что показывает анализ «ковидных» запросов в поисковых системах Интернета. Степень лукавства властей в интервью «Фонтанке» разобрал эксперт, который регулярно мониторит, что ищут в поисковиках россияне.
Ежедневный прирост выявленных заражений коронавирусом составляет уже больше 13 000 случаев, и это далеко не предел. «Фонтанка» узнала, как открытые данные поисковых запросов в Интернете показывают реальную картину «эпидемии». В интервью совладелец исследовательского агентства Data Insight, специалист по анализу данных Борис Овчинников рассказал о том анализе, который он с другими энтузиастами ведёт в первую очередь для того, чтобы у общества была возможность получить независимую от чиновников оценку эпидемиологической ситуации.
— Борис, вы утверждаете, что поисковые запросы, связанные с коронавирусной инфекцией, растут очень быстро, что косвенно показывает масштабы эпидемии. Что это за запросы?
— Я отслеживаю географию и динамику по списку запросов, связанных с симптомами коронавируса. Сам этот список составил мой соратник по анализу поисковой «ковидной» статистики Александр Драган: это «не хватает воздуха», «не чувствую вкус», «не чувствую запахи», «боли в спине», «болит горло», «болят мышцы», «вернуть обоняние», «высокая температура», «держится температура», «жжение в груди», «ломит тело», «низкая сатурация», «першит в горле», «потливость», «пропали вкусы», «пропали запахи», «пропало обоняние», «скачет температура», «сухой кашель», «сухость в носу», «температура 37», «температура 38», «температура и кашель», «тяжело дышать». Всего более двух десятков запросов. Второй, более простой вариант с точки зрения сбора данных, — смотреть на динамику какого-то одного ключевого слова или фразы, и, с моей точки зрения, самым показательным является слово «обоняние». В «мирное время» люди запросы про обоняние практически не делают, то есть очень мало не связанных с нынешней пандемией «примесей» в этих запросах. Другое дело, что, конечно, нельзя каждый запрос со словом «обоняние» автоматически приравнивать к тому, что у человека коронавирус. Понятно, что и, например, проблемам с обонянием, которые могут возникать и при обычных простудах, сейчас люди уделяют намного больше внимания, чем год назад. Я стараюсь это учитывать.
— Как вы это учитываете, как можно чисто механически сделать такой допуск?
— Чисто механически его сделать нельзя. Тут приходится постоянно сравнивать, проверять динамику по выбранному ключевому слову, то есть «обонянию», с другими запросами. То же влияние простудного сезона можно проверить по динамике запросов про «насморк» и «простуду» — и да, у них график сильно другой. Или, например, кроме обоняния есть куда более редкий, но связанный с ним запрос про потерю вкуса — это ещё более специфический симптом, потому что при обычных ОРВИ вкус обычно не пропадает, и он тоже сейчас бьет рекорды по частоте. И таких запросов, на которые можно смотреть, много десятков, а, скажем, Драган учитывает даже сотни запросов. Я на днях нашел еще один запрос, связанный с коронавирусом, но не связанный с обонянием, который, может быть, лучше всего показывает динамику эпидемии, пусть и с некоторым отставанием во времени, — потому что это запрос, который может возникнуть только у человека, который твердо уверен, что болеет или недавно болел COVID-19. Этот запрос достаточно редкий — там сотни запросов в неделю в масштабах всей страны, так что я не готов его сейчас раскрыть, чтобы не нарушить чистоту эксперимента, и в шутку называю его «секретным запросом». Я про этот запрос вспомнил, как про иллюстрацию того, что на самом деле сопоставление, кросс-проверка динамики по разным запросам, поиск новых маркеров в поисковой статистике идут постоянно, и они позволяют понять, насколько рост поисковых запросов связан с ростом заболеваемости COVID-19, а насколько с медиашумом, паникой или сезонными простудами.
— Как звучит этот наглядный «секретный запрос»?
— Я не готов его раскрывать, чтобы случайно не зашумилась статистика по нему. Чтобы народ не стал его «гуглить» в «Яндексе». Тогда сразу всё испортится, к сожалению. Он настолько редкий, что случайные даже несколько десятков запросов точно скажутся на искажении динамики. Возвращаясь к обонянию. Тут на самом деле главная проблема не в том, что обонянием могут интересоваться просто в связи простудами, а в том, что в случае Москвы и Петербурга сейчас на него существенно влияет уровень осведомлённости людей. И влияет в сторону понижения. Я предполагаю, что в Москве и в Петербурге доля людей, которые знают и понимают, что отсутствие обоняния — это признак коронавируса, сильно выше, чем в остальной стране. Сказывается сочетание высокого уровня образования и полученного в апреле — июне опыта. Соответственно, при появлении подобных признаков люди уже не бегут в поисковики, чтобы понять, почему у них пропало обоняние. Но оценить количественно, насколько эта информированность влияет, наверное, невозможно. Но я также понимаю, что, если, не дай бог, в Москве и в Питере количество запросов про обоняние сейчас выйдет на тот же уровень, на котором оно было на пиках в начале, в мае — июне, это будет означать, что в действительности сейчас коронавирусом болеет намного больше людей, чем в двух столицах болело тогда.
— Что конкретно вы делаете руками? Как выглядит инструментарий?
— Это не Google. Только «Яндекс». Они предоставляют данные в более наглядном и понятном формате. У них есть специальный интерфейс — это сервис статистики поисковых запросов wordstat.yandex.ru. В первую очередь он предназначен для рекламодателей, маркетологов, но также его можно использовать для анализа отслеживания самых разных социальных явлений. В том числе, для отслеживания запросов, предположительно связанных с нынешней эпидемией. К сожалению, детальный сбор данных через этот интерфейс представляет большие сложности. Кропотливая, долгая, занудная ручная работа. Поэтому сейчас удаётся отследить лишь часть из всего объёма данных, которые было бы хорошо собирать и анализировать. Но и того, что мы с коллегами успеваем проанализировать, хватает для важных выводов.
— Главный вывод — динамика роста цифр? Что происходит сейчас в масштабах страны, судя по данным поисковых запросов?
— Стремительный рост. Притом, что меня пугает очень сильно, рост идёт практически по всей стране. Об этом популярно написал тот же Александр Драган https://www.facebook.com/alexx.dragan/posts/3468324403226711.
В отличие от мая и лета, когда в каждый момент времени были регионы с сильными активными вспышками, но в большинстве регионов существенного роста не было, то в последние недели в рост пошли уже почти все регионы. Если говорить про Россию в целом, то за 13 дней между двумя срезами данных, за 23 сентября и 6 октября, количество симптомных запросов выросло на 21%. Звучит вроде не очень страшно, но надо учитывать, что сравниваются цифры не за день, не за неделю, а сумма за последние 30 дней — что смягчает оценки динамики, замедляет её. Если говорить более узко про запросы со словом «обоняние», то только в первую неделю октября рост запросов в целом по стране был больше 40%.
— Будь такие темпы по депозитным вкладам, мы были бы счастливее всех на планете…
— Да. Если уж совсем утрировать, то темпы роста на 40% в неделю — это увеличение в 1000 раз за 20 недель.
— Ранний МММ, гиперинфляция нашего детства в начале девяностых? Если искать понятные аналогии.
— И то там не было такой скорости на длительных периодах. Одно из немногих относительно светлых или хотя бы менее беспокоящих пятен на карте — это Петербург. Если говорить про общий пул запросов, то у вас рост за 13 дней всего +13%. Конечно, серьёзный рост всё равно, но надо еще учитывать, что чем меньше темпы роста — тем, скорее всего, больший вклад в нем у запросов, не связанных в действительности с заражением коронавирусом (а связанные с повышенной частотой обсуждения темы коронавируса и аносмии, как по науке называется потеря обоняния, и, возможно, с ростом осенних простуд — хотя погода этой осенью много лучше среднего).
— Кстати, про погоду «Фонтанке» сказала и главный эпидемиолог Петербурга, когда искала ответ на вопрос, почему смертность в Петербурге держалась на прошлой неделе выше, чем в Москве. Ваш анализ позволяет мониторить смертность от COVID-19, есть корреляция с официальными данными?
— Запросы про смертность я не анализирую. Пытался несколько раз посмотреть и подобрать. Но показательных и надёжных индикаторов в поисковой статистике я не вижу. Слишком сложная тема для того, чтобы подобрать качественные индикаторы в поисковой статистике. А что касается связи с официальной статистикой, то вопрос в том, что мы называем официальной статистикой. Данные Роспотребнадзора по «ковидной» статистике или данные Росстата по общей смертности?
— С чем сравнивать пытались вы?
— Если смотреть на графики России в целом, то есть неплохое совпадение динамик с официальным количеством выявляемых заболевших в день. Неплохое совпадение в том смысле, что в официальных графиках мы видим пик в мае, а потом медленное снижение до минимального уровень в августе. Дальше резкий рост в последние недели, когда показатели уже выше, чем на пиках мая-июня. Динамика по запросу «обоняние» показывает примерно то же самое. Да, есть различия — масштаб нынешнего превышения по сравнению с весенними пиками по статистике запросов больше, чем по статистике Роспотребнадзора, но есть узнаваемые изгибы.
— То есть такая в общем «лыжня», но с поправкой на условное «эхо»? Сперва рост запросов, потом рост официальных цифр. Люди чувствуют себя хуже до того, как их посчитает государство.
— Да, с небольшим эхо. И, конечно, с поправкой на то, что если начать раскладывать цифры на уровень регионов, то хорошая корреляция уже пропадает. Есть регионы, в которых цифры официальной статистики или за отдельные периоды или даже за всё время абсолютно нерелевантны и недостоверны. Один из самых ярких примеров по моим наблюдениям — Татарстан. По официальным данным у них небольшой пик был весной, в апреле — мае. Но поисковые запросы показывают огромный всплеск летом. О том, что основные проблемы были у них летом, говорят и официальные данные по общей смертности в Татарстане.
— С учётом того, что в целом по стране ваши данные и официальные идут параллельно, мы не спешим верить социологу и бывшему сотруднику Росстата Алексею Ракша, который заявлял «Фонтанке» о тотальной недостоверности данных государства? Кстати, он тоже предпочитает верить анализу поисковых запросов.
— Схожесть динамики официальной статистики и того, что видим мы в поисковой статистике, необязательно означает, что официальные данные достоверны или близки к истине в части абсолютных цифр. «Параллельность» их и наших цифр может получаться и в случае, если коэффициент недомера по официальным цифрам в целом по стране примерно постоянный. Для вывода о недостоверности официальных цифр необязательно обращаться к поисковой статистике — эта недостоверность видна и из аномальной гладкости самих официальных цифр по многим регионам, и из их несовпадения с тем, что видят врачи и пациенты в больницах и что потом мы видим в статистике по общей смертности. Что же касается аномальной гладкости цифр, то можно вспомнить кейс Краснодарского края в мае, когда у них много дней подряд было чуть меньше 100 заболевших в день. Или знаменитый собянинский коридор «чуть меньше 700 человек» в Москве в августе.
И Алексей правильно обращает первоочередное внимание именно на недооценку смертности от COVID-19. Понятно, что оценить её через поисковые запросы невозможно, но через поисковые запросы мы видим те регионы, где ситуация с заболеваемостью особенно плохая и где, к сожалению, мы должны ожидать значительного количества смертей от COVID-19. Что мы потом с большим временным лагом сможем проверить по официальной статистике Росстата по общей смертности.
— Как бы вы оценили возможное «занижение» официальных данных? Ваш анализ показывает их лукавство?
— Масштаб занижения по поисковым опросам оценить нельзя. Но сам факт недостоверности цифр по отдельным регионам можно увидеть и через поисковую статистику. Пример Татарстана я уже приводил. Но скорее ценность анализов поисковых запросов в том, что с их помощью можно одним инструментом, не зависящим от честности региональных чиновников, их политических интересов, объема денег, которые есть в регионах на тестирование, сравнивать более-менее объективно ситуацию в разных регионах.
— Как оперативно появляются свежие данные поисковых запросов?
— Последние данные сейчас есть за 9 октября. Данные за всю прошлую неделю ждём, видимо, в среду.
— То есть мы не можем сказать, что сегодняшние пугающие цифры для вас были очевидны на момент анализа данных начала октября?
— Было бы лукавством сказать вам сейчас, что я мог по цифрам поисковой статистики начала октября предполагать, что 10–11 октября будет уже больше 13 тысяч в день. Но то, что рост и новые рекорды должны быть, было очевидно. К сожалению поисковая статистика указывает на то, что и эти 13 тысяч — это ещё далеко не предел.
— Где предел ухудшения ситуации? В Роспотребнадзоре прогнозируют выход на плато по коронавирусу через 10–20 дней.
— Я не знаю, на чем основан прогноз Роспотребнадзора. Если говорить о поисковых запросах, то для них стандартная траектория — несколько недель быстрого роста, а потом сразу переход к примерно столь же быстрому снижению. Типичная длина такого цикла — 2 месяца. Просто весной и летом мы это видели в статистике по отдельным городам (Москва, Петербург, Набережные Челны, Омск, Норильск), тогда как динамика по России в целом сглаживалась разнонаправленностью траекторий отдельных городов. Сейчас же мы сталкиваемся с общероссийской волной — и ожидаю, что за нынешним резким ростом мы по крайней мере по поисковой статистике увидим через несколько недель сопоставимое по скорости снижение.
— Так ведь летом были дачи, хотя какие дачи в Норильске…
— Вообще не надо переоценивать количество дачников в регионах. Дело не в лете и не в дачах. Если утрировать, срабатывают механизмы самосохранения. Там, где очень плохо, люди начинают резко лучше соблюдать дистанцирование и прочие известные меры. Плюс после быстрого охвата эпидемией заметной части жителей города скорость распространения падает за счёт того, что просто потенциальных незаразившихся жертв вокруг сильно меньше, чем было до начала вспышки.
— Вам известно, кто и как использует ваш анализ или аналогичные анализы поисковых запросов в официальной работе госорганов? Это вообще нужно делать?
— Мне ничего про использование этих данных чиновниками не известно. Наверное, это было бы полезно. Хотя сама постановка вопроса, что чиновникам было бы полезно смотреть на альтернативные метрики, потому что официальная статистика может быть недостоверной или, как я и другие коллеги считаем, точно недостоверна во многих регионах во многих моментах, сам этот вопрос звучит абсурдно и дико в нашей реальности… Более реалистичный сценарий в этом смысле в том, что такие данные могут использоваться журналистами, обществом, экспертным сообществом для воздействия на региональные власти. В идеале для совместной выработки решений по предотвращению или смягчению катастрофы. Но это мы уже переходим к фантазиям про идеальный мир.
— Вам бы хотелось, чтобы благодаря вашему анализу чиновники врали меньше, если упростить?
— (Долгая пауза.) Честно говоря, меня больше волнует даже не объём вранья… Понятно, что это важно и существенно. Но в нынешней ситуации важнее тактическая сторона: чтобы решения принимались на основе объективной и корректной информации. Просто чтобы не навредить больше. Чтобы не было хуже.
— Борис, а вы сами как простой гражданин, что думаете о том, что все эти игры в статистику вообще лишены смысла? Что переболеть всё равно придётся всем. С вакциной или без вакцины…
— Во-первых, то, что вы назвали «играми со статистикой», как минимум позволяет реагировать на текущую динамику и тем самым помогает размазать нагрузку во времени. А это то, чего сейчас не происходит. Сейчас нагрузка на здравоохранение нарастает, по сути, резко и одновременно везде. Такого, как было летом, когда из Москвы посылали бригады врачей в регионы, боюсь, что сейчас уже не будет. Нереалистично. И как простого гражданина меня идея, что переболеть должны все, мягко говоря, пугает. В моём ближайшем окружении есть несколько человек, для которых заражение с очень большой вероятностью окажется смертельным.
Николай Нелюбин, специально для «Фонтанка.ру»