Борьба с COVID-19 с помощью науки о данных

Взгляд от неожиданного участника

В этой истории рассказывается о моем опыте использования машинного обучения и анализа данных, чтобы помочь исследователям найти ответы в Набор данных открытых исследований COVID-19 (CORD-19). CORD-19 был выпущен для применения последних достижений в обработке естественного языка для получения новых идей в поддержку борьбы с этим инфекционным заболеванием. То, что началось как попытка внести свой вклад и помочь, привело к тому, что проделанная мной работа была освещена в статье Wall Street Journal и цитирована на странице, посвященной вкладу сообщества COVID-19 Kaggle.

В этой статье рассказывается о моем участии, а также об эволюции моего технического подхода к набору данных.

Создание новой компании

В прошлом году компания Data Works, которую я основал и помогала создавать с нуля, совершила приобретение. Это было хорошее время, чтобы перейти к новым приключениям, и нам очень повезло найти покупателя, который вывел бы компанию на новый уровень и при этом правильно относился к людям.

После переходного периода пришло время подумать о следующем приключении. В этом году я основал NeuML, компанию по разработке программного обеспечения и услуг для машинного обучения. Первой концепцией NeuML была neuspo, сайт отслеживания и аналитики спортивных событий в реальном времени, обсуждаемый в этой статье.

Я был очень взволнован и с нетерпением ждал турнира NCAA. Турнирные прогнозы публиковались на neuspo, и модель была готова для использования в Конкурсе безумия марша Kaggle. Было также интересно увидеть, как neuspo справится с отслеживанием безумия, которое является мартовским безумием.

7 марта NeuML разместила в сети первую версию своего веб-сайта. Я обменялся текстовыми сообщениями с мамой, чтобы показать ей сайт, и мы обсудили брекетологию, она действительно увлекалась спортом. У меня был такой разговор тысячи раз. Через несколько часов мне позвонили и сообщили, что моя мама неожиданно скончалась.

Движение вперед

Проведя следующую неделю в путешествиях, переживая процесс потери родителей, мир быстро зашел в тупик. Неделя 9 марта 2020 года будет неделей, которые мы все помним, когда наблюдали за распространением COVID-19, заразившим людей из всех слоев общества, включая спортсменов и кинозвезд. Из-за неизбирательного нацеливания на COVID-19 во всех основных видах спорта были приостановлены сезоны. Мартовское безумие было отменено, спорт, как и все другие аспекты жизни, был приостановлен.

neuspo теперь также был отложен. Поскольку жизнь находилась в карантине, я хотел найти способ помочь и нашел набор данных CORD-19 на Kaggle. Несмотря на отсутствие медицинского образования и незнание как области эпидемиологии, так и медицинской литературы, я думал, что смогу помочь, применив свой опыт в области инженерии данных и аналитики.

Поиск CORD-19

Мой первоначальный подход заключался в загрузке набора данных и построении индекса поиска семантического сходства. Проект cord19q стартовал на GitHub. При работе над cord19q можно было использовать аналогичный проект codequestion, который находит аналогичные ответы на технические вопросы.

Учитывая необработанный, неструктурированный характер данных, потребовались процессы преобразования, чтобы привести данные в формат, который можно было бы использовать в моделях машинного обучения. Индекс подобия был построен по преобразованным данным. Преимущество индекса сходства перед индексом ключевых слов заключается в том, что он поддерживает варианты фраз и терминов, что позволяет нам находить не только точное, но и похожее содержание.

cord19q был интегрирован в блокнот Kaggle под названием Анализ CORD-19 с встраиванием предложений, в котором создаются отчеты для ответов на вопросы задач в рамках исследовательской задачи CORD-19. Ноутбук начал набирать обороты, когда команда Kaggle поделилась результатами испытания с медицинским сообществом. Это было хорошее начало, но нужно было гораздо больше.

Развитие скептицизма к данным исследований

Когда я решал эту задачу, я изначально задумывался о том, что поиск является ключевым моментом и что мы должны привлекать внимание исследователей к текстовым совпадениям. Большая часть моей работы была сосредоточена на поиске наиболее кратких совпадений с запросом и привлечении к ним внимания исследователей.

Из-за ограниченного медицинского образования мое понимание того, как оценивается медицинская литература, было ограниченным. Отрывок текста в медицинской статье бесполезен без контекста, из которого сделаны эти выводы. Например, совпадение текста в обзорной статье не так важно, как вывод, сделанный на основе большого медицинского исследования. Исследование с размером выборки из 5 участников имеет гораздо меньший вес, чем исследование с 500 участниками. Также тщательно изучается методология сбора данных или набора пациентов.

Сейчас это более ясно, но в начале этой работы я не думал об этом. Необходимо сделать больше, чтобы извлечь эту информацию и направить исследователей.

Дизайн исследования

Извлечение метаданных вспомогательного исследования стало основным направлением моей работы над CORD-19. В Kaggle теперь есть команда кураторов, которые собирают лучшие результаты по совокупности источников. Чем больше можно будет сделать, чтобы помочь кураторам и медицинским исследователям быстро отсортировать статью, тем лучше.

Моим первоначальным подходом был подход, основанный на правилах, с использованием заранее определенного словаря для обозначения исследований типом дизайна исследования. Подход, основанный на правилах, также использовался для извлечения методологии выборки исследования, размера и статистики исследования. Такой подход дал неплохие результаты, но его нельзя было масштабировать. Это позволило мне больше узнать о предметной области и данных, что имеет решающее значение для обучения компьютера обучению. Мы не можем научить тому, чего не знаем.

Следующим подходом было перейти к подходу машинного обучения назад. Набор данных с помеченными метаданными дизайна исследования был агрегирован вместе. Большая часть этой работы требовала чтения строк за строкой, чтения предложений и статей. Он также смог использовать вручную размеченные исследования как часть усилий по курированию. Были построены две модели для классификации дизайна исследования и атрибутов исследования, технический подход обсуждается здесь. Эта модель повысила уровень точности, давая воспроизводимый процесс для дальнейшего повышения точности с дальнейшей маркировкой и обучением данных.

Что дальше

Это постоянное усилие, и каждый день к нам присоединяются новые люди. Данные обновляются еженедельно, системы проверяются, чтобы выделить наиболее актуальные исследования COVID-19 по широкому кругу тем. Если вы хотите принять участие, взгляните на это обсуждение на Kaggle.

Для меня большая честь работать со многими умными и талантливыми людьми, видеть, как медицинские эксперты объединяются вместе с техническими экспертами, чтобы помочь победить COVID-19. Я хотел бы поблагодарить Энтони Голдблума и его команду в Kaggle за организацию и руководство этой работой. Они мне очень помогли и поддержали. Инфраструктура Kaggle позволила мне быстро создавать аналитические продукты и широко распространять результаты.

Я с нетерпением жду возвращения к нормальной жизни. Безусловно, это уникальный период для меня, как и для многих. Когда-нибудь мы вспомним неопределенность и нестабильность этого времени. Я с нетерпением жду того дня, когда мы заговорим о спорте, брекетологии и о том, как Том Брэди оказался на Bucs. А до тех пор у нас есть работа, чтобы помочь нам достичь этого в любом качестве.