Конкурс открытых исследовательских данных COVID-19 (CORD-19) на Kaggle

Задача ИИ от Allen Institute for AI с AI2, CZI, MSR, Georgetown, NIH и Белым домом

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

Введение

Привет, меня зовут Санджив. Вот мой первый пост на Medium. На момент написания статьи мир переживает пандемию COVID-19. Последние оценки случаев представлены такими веб-сайтами, как:

https://www.worldometers.info/coronavirus/
https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports (ежедневные отчеты ВОЗ о ситуации)
https://www.coronatracker.com/

Эти организации представляют данные, чтобы показать, насколько быстро прогрессирует COVID-19, предоставляя властям и общественности необходимую информацию для принятия мер. В статье Аманды Макулек о важности ответственной публикации данных о COVID-19 освещаются соображения, которые необходимо учитывать при проведении таких презентаций.

Вызов

Учитывая серьезность ситуации со здоровьем во всем мире, многие группы и организации предлагают открытые данные и хакатоны, чтобы побудить общественность предлагать решения для общей профилактики, исследований и сдерживания COVID-19. Одной из задач, которая привлекла мое внимание при прокрутке Facebook, была COVID-19 Open Research Dataset Challenge (CORD-19) на Kaggle.

Kaggle спонсирует это испытание, предоставляя победителю по 1000 долларов за каждое задание, которое лучше всего соответствует требуемым критериям. Пока я сижу здесь на карантине, как и многие люди в других странах, я нашел время, чтобы написать эту статью, чтобы уточнить, что требует задача в резюме для справки. Я надеюсь, что это может послужить быстрым стартом для понимания проблемы или послужить своего рода уроком для других, которые, возможно, захотят заняться другими связанными проблемами. Лично для меня это служит феймановским подходом к лучшему пониманию самой проблемы.

Список задач

«…разработать инструменты анализа текста и данных, которые могут помочь медицинскому сообществу найти ответы на высокоприоритетные научные вопросы».

Используя продукт задач Kaggle, список задач в форме вопросов, который был получен из SCIED NASEM (Постоянный комитет Национальной академии наук, инженерии и медицины по возникающим инфекционным заболеваниям и угрозам здоровью 21-го века) темы исследования и Мир Был разработан План исследований и разработок Организации здравоохранения для COVID-19, в котором для каждой перечисленной задачи будет рассматриваться лучшая работа. Список вопросов был следующим:

Что известно о передаче, инкубации и стабильности в окружающей среде?
Что мы знаем о факторах риска COVID-19?
Что мы знаем о генетике, происхождении и эволюции вирусов?
Что мы знаем о вакцинах и терапевтических средствах?
Что мы знаем о нефармацевтических вмешательствах?
Что было опубликовано по этическим и общественным наукам?
Что мы знаем о диагностике и наблюдении?
Что было опубликовано о медицинском обслуживании?
Что было опубликовано об обмене информацией и межотраслевом сотрудничестве?

Подводя итог, вот список ключевых слов/терминов, которые я обработал вручную (удалены запятые и «и»), отображенные в этой матрице ниже:

коробка передач
инкубация
экологическая стабильность
Факторы риска COVID-19
источник
эволюция
вирусная генетика
терапия
социальные науки
вакцина
немедикаментозные вмешательства
этический
диагностика
наблюдение
медицинская помощь
обмен информацией
межсекторальное сотрудничество

Как видите, сами ключевые слова/термины нельзя рассматривать отдельно в контексте задач задачи, но их можно использовать в качестве категориальных меток или групп для ссылки на метаданные.

Данные

В основном исследовательские работы, включая полнотекстовые статьи. “29 000 научных статей”. Новые способы ускорения обзора литературы крайне необходимы для общего ускорения не только исследований COVID-19, но и НИОКР в целом. Чтобы быстро и точно связать статьи с соответствующей темой, необходимо использовать методы извлечения и классификации. Чтобы распространить понимание среди исследователей, необходимо быстро получить информацию. Дальнейшее исследование будет проведено, как только я углублюсь в него.

Подход

После изучения некоторых представлений и ядер, представленных для этого испытания, мое внимание привлекли два представления.

«Традиционный подход»

Наивысший рейтинг сообщества от eda — это модель просмотра с использованием поисковой системы BM25. eda использовала более традиционный подход к науке о данных. Если хотите, скорее подход инженера-программиста. Причина, по которой этот подход выглядит таковым, заключается в том, что используемые методы очистки и сортировки необработанных данных требуют небольшой ручной работы с доступными инструментами (NLTK, текстовые функции Python). В его подходе также используются токены, классы и индексы, что не требует индивидуальной обработки файлов и позволяет автоматизировать очистку и сортировку текста на основе названия статьи и аннотации.

Подход «ML»

Более основанный на машинном обучении подход к задаче, которая заняла второе место в рейтинге сообщества, был предложен Максимом Экиным, в котором использовалось неконтролируемое обучение (K-Means). Этот подход также требовал предварительной обработки и индексации. Такие методы, как векторизация и уменьшение размерности, также использовались для улучшения результатов кластеризации. Однако метки для этих кластеров не были созданы четко, и поэтому только кластеризация остается основным моментом для этого представления.

Заключение

Подводя итог, можно сказать, что эта задача представляет собой задачу, основанную на НЛП, основной целью которой является «разработка инструментов интеллектуального анализа текста и данных», чтобы предоставить информацию для запросов исследовательских сообществ. И представленные здесь материалы по-прежнему считаются ранними, поскольку они были отправлены несколько часов назад на момент написания (21 марта 2020 г.).

Конкурс открытых исследовательских данных COVID-19 (CORD-19) на Kaggle

Задача ИИ от Allen Institute for AI с AI2, CZI, MSR, Georgetown, NIH и Белым домом

Вопросы по теме