Благодаря мерам социального дистанцирования большое количество дискуссий, касающихся COVID-19, теперь происходит в социальных сетях, таких как Twitter. Эти платформы содержат кладезь информации, которая может помочь нам ответить на такие вопросы, как у скольких людей сегодня проявляются симптомы коронавируса? Однако не вся информация одинакова — эти платформы также содержат много дезинформации, которая потенциально может причинить вред представителям общественности.

Мы разработали систему для отслеживания и анализа твитов, в которых упоминаются симптомы COVID-19. Эта система «слушает» твиты, в которых упоминаются симптомы COVID-19. После идентификации твиты проходят через классификатор машинного обучения, который определяет, относятся ли они к личным симптомам пользователя, чьим-либо симптомам или содержит ли твит дезинформацию.

Мы также можем использовать данные геолокации для подсчета количества пользователей, которые твитят о симптомах в каждом регионе данной страны (где геолокация разрешена пользователем). По этим данным можно определить количество пользователей, которые путешествуют между разными регионами данной страны. Эта информация потенциально может помочь выявить новые кластеры вспышек в стране и дать представление о том, как представители общественности отреагировали на меры по блокировке.

Чтобы сделать эту информацию легко доступной, мы разработали информационную панель «Symptom Watch», которая сообщает о ежедневном подсчете количества твитов, в которых упоминаются симптомы. Эти подсчеты в настоящее время предоставляются по штатам в США и на различных уровнях (местные и вышестоящие органы власти, регион NHS и национальный) в Великобритании. В ближайшем будущем эта функция будет распространена на другие страны.

Мы также работаем с Evergreen Life над анализом данных из их приложения для здоровья и хорошего самочувствия. В ответ на COVID-19 Evergreen Life задавала пользователям приложения вопросы, чтобы получить представление о пандемии. Пользователей просят сообщить, например, если они изолируются или есть ли у них или у кого-то из членов их домохозяйства симптомы. Глубина и широта собранных данных впечатляют и могут ответить на бесконечное количество вопросов.

Команда разработала решения, чтобы ответить на некоторые из этих вопросов, например, на среднюю продолжительность, в течение которой человек испытывает симптомы COVID-19. Пользовательские отчеты в приложении Evergreen Life носят спорадический характер, поэтому мы не видим полную хронологию отчетов за весь период, когда у человека проявляются симптомы. Чтобы справиться со спорадическим характером пользовательских отчетов, мы определили и подогнали байесовскую модель на языке программирования «Stan», что позволило нам определить, что пользователи, скорее всего, будут испытывать симптомы в течение 3,06 дней.

Если пользователи сообщают, что у члена семьи проявляются симптомы, мы можем получить представление о взаимодействии COVID-19 внутри домохозяйства, определив время между двумя заболевшими членами домохозяйства. Мы также знаем, находится ли пользователь в изоляции и впоследствии у него появляются симптомы. Из этих отчетов мы можем количественно определить, снижает ли изоляция ваши шансы на развитие коронавируса. Мы проанализировали данные, собранные в период с марта по июнь этого года, и определили, что люди, которые не изолировались, на 35% чаще сообщали о симптомах в течение 7 дней после сообщения о том, что они не изолировались.

Проделанная нами работа демонстрирует, как можно использовать новые потоки данных для более глубокого понимания пандемии COVID-19. В сочетании с более традиционными потоками данных эти новые потоки данных могут помочь правительствам принимать более обоснованные решения по борьбе с вирусом.

Мэтью Картер — аспирант, член EPSRC CDT по распределенным алгоритмам. Этот блог изначально был размещен в Центре COVID-19 Ливерпульского университета.