Использование топологического анализа текста для открытого исследования COVID-19

Мой взгляд на анализ научных официальных документов COVID-19 Kaggle. Это исследование - первый шаг, который поможет специалисту в области вирусологии, фармации и микробиологии найти ответы на проблему.

Примечание редакции: Towards Data Science - это издание Medium, в основном основанное на изучении науки о данных и машинного обучения. Мы не являемся специалистами в области здравоохранения или эпидемиологами, и мнения, изложенные в этой статье, не следует интерпретировать как профессиональные советы. Чтобы узнать больше о пандемии коронавируса, нажмите здесь.

12 марта Белый дом и коалиция ведущих исследовательских групп подготовили набор данных открытых исследований COVID-19 в ответ на пандемию коронавируса. Набор данных состоит из более 44000 научных статей, в том числе более 29000 с полными текстами, о COVID-19, SARS-CoV-2 и связанных с ними коронавирусах. Этот свободно доступный набор данных предоставляется мировому исследовательскому сообществу для применения последних достижений в обработке естественного языка и других методов искусственного интеллекта для получения новых идей в поддержку продолжающейся борьбы с этим инфекционным заболеванием. Страницу Kaggle для этой задачи можно найти здесь: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

Обращение ко всем экспертам в данной области

Если вы специалист в области вирусологии, фармации или микробиологии, мы хотели бы предоставить вам БЕСПЛАТНЫЙ доступ к приведенному ниже анализу на платформе DataRefiner, чтобы ускорить научные исследования и бороться с вирусом. Свяжитесь с нами по адресу [email protected].

Проблема

Задача определила ряд вопросов к сообществу:

Что известно о передаче, инкубации и стабильности окружающей среды?
Что мы знаем о естественном течении, передаче и диагностике вируса? Что мы узнали о профилактике инфекций и борьбе с ними?

Что мы знаем о факторах риска COVID-19?
Что мы узнали из эпидемиологических исследований?

Что мы знаем о генетике, происхождении и эволюции вирусов?
Что мы знаем о происхождении вируса и мерах по управлению на стыке человека и животного?

Что мы знаем о нефармацевтических вмешательствах?
Что известно о справедливости и препятствиях на пути соблюдения нефармацевтических вмешательств?

Что мы знаем о вакцинах и терапевтических средствах?
Что было опубликовано относительно исследований, разработок и оценок вакцин и терапевтических средств?

Что мы знаем о диагностике и эпиднадзоре?
Что было опубликовано о систематическом, целостном подходе к диагностике (с точки зрения наблюдения за общественным здоровьем до возможности прогнозировать клинические исходы)?

Предварительная обработка данных

Для этого анализа мы использовали как аннотации, так и полный текст документов. Часто документы в этом наборе данных содержат только аннотации или только полный текст. Их объединение помогло представить полную картину.

Рефераты в научных статьях обычно довольно сложные, и один из способов их анализа - разбить их на предложения. В этом случае каждое предложение представляет собой небольшой фрагмент информации, которого должно хватить для автоматического анализа.

Это пример одного из рефератов:

«Базовое воспроизводимое число инфекционного агента - это среднее количество инфекций, которые один случай может вызвать в течение инфекционного периода у наивной, неинфицированной популяции. Хорошо известно, что оценка этого числа может варьироваться из-за нескольких методологических проблем, включая различные допущения и выбор параметров, используемых моделей, используемых наборов данных и периода оценки. Было обнаружено, что с распространением инфекции нового коронавируса (2019-nCoV) число репродукций варьируется, отражая динамику передачи вспышки коронавируса, а также уровень регистрации случаев. Из-за значительных различий в стратегиях контроля, которые менялись с течением времени, и благодаря внедрению технологий обнаружения, которые были быстро улучшены, что позволяет сократить время от появления инфекции / симптомов до диагностики, что приводит к более быстрому подтверждению нового случаев коронавируса, наши предыдущие оценки риска передачи 2019-nCoV необходимо пересмотреть ''.

Для нашего анализа мы разбиваем его на предложения:

Базовое воспроизводимое число инфекционного агента - это среднее количество инфекций, которые один случай может вызвать в течение инфекционного периода у наивной, неинфицированной популяции
Хорошо известно, что оценка этого числа может варьироваться из-за нескольких методологических проблем, включая различные допущения и выбор параметров, используемых моделей, используемых наборов данных и периода оценки
Было обнаружено, что с распространением инфекции нового коронавируса (2019-nCoV) число репродуктивных органов варьируется, что отражает динамику передачи вспышки коронавируса, а также частоту регистрации случаев
Из-за значительных различий в стратегиях контроля, которые менялись с течением времени, и благодаря внедрению технологий обнаружения, которые были быстро улучшены, что позволяет сократить время от появления инфекции / симптомов до постановки диагноза, что приводит к более быстрому подтверждению новых случаев коронавируса, наши предыдущие оценки риска передачи 2019-nCoV должны быть пересмотрены

Как видите, каждого предложения на самом деле достаточно, чтобы выразить часть информации, необходимую исследователям, чтобы хотя бы частично ответить на вопрос. Всего получилось 291281 предложение - этого достаточно для анализа.

Анализ предложений

Все предложения были проанализированы и представлены в виде топологической карты ниже, каждая точка на карте представляет собой одно или несколько предложений, похожие предложения расположены близко друг к другу. Кластеры формируются автоматически и представляют разные темы в тексте.

Во время обучения модели, помимо автоматической кластеризации, мы настроили ее для извлечения предложений с такими ключевыми словами, как «происхождение», «стабильность», «эволюция», «риск» и «передача». Мы выделили эти кластеры на карте вручную, используя полу-контролируемый подход.

Давайте посмотрим на кластер "происхождение" и на то, какие знания мы можем извлечь из него.

Эти самые популярные ключевые слова были автоматически извлечены из предложений, мы показываем здесь 20 самых популярных ключевых слов, остальные будут использоваться для поиска самых популярных итоговых предложений, которые наилучшим образом описывают кластер.

Верхние предложения, описывающие "происхождение" кластера, также были определены автоматически и довольно точны.

Давайте посмотрим на другой кластер, на этот раз тот, который сформировался полностью автоматически, - «coronavirus sars / sars coronavirus / coronavirus mers».

Анализ предложений, связанных с ключевым словом «передача», в виде отдельной карты

Помимо анализа всего набора предложений, система может обрабатывать предложения, относящиеся к определенному ключевому слову, например, «передача». Ниже представлена карта из 8198 предложений, связанных с ключевым словом «передача»:

Набор данных состоит не только из официальных документов по коронавирусу, но и из большого количества документов о других недавних вирусах, таких как «SARS» (коронавирус, связанный с тяжелым острым респираторным синдромом), «MARS» (коронавирус, связанный с ближневосточным респираторным синдромом), «TGEV» Вирус трансмиссивного гастроэнтерита и некоторые другие. Мы рассмотрели разные кластеры по отдельности, чтобы понять все основные фрагменты информации о передаче этого и подобных заболеваний.

Система автоматически идентифицировала кластеры ключевых слов и сегментировала набор данных между ними. Чем ближе кластеры, тем больше у них схожих терминов и тем. Это помогает понять группировку высокого уровня и найти метакластеры в данных.

Заключение

Топологическая сегментация текста помогает исследователям систематизировать знания в огромном объеме текстовой информации, доступной прямо сейчас. При выполнении сегментации и анализа каждого сегмента весь объем данных разбивается на кластеры, что упрощает анализ и понимание данных. Выявленные ключевые слова и сводные предложения помогают найти наиболее репрезентативную информацию и ускорить поиск ответа.

Анализ для этой статьи был проведен с использованием платформы DataRefiner. Мы использовали эту технологию в ряде компаний не только для анализа текста, но и для определения активности пользователей и сегментации Интернета вещей. Свяжитесь с нами, если хотите узнать больше или заказать демоверсию.

Оригинал: https://datarefiner.com/feed/covid-challenge

****

DataRefiner.com - британская компания, специализирующаяся на анализе и сегментации сложных данных, таких как активность пользователей, сенсоры или тексты. Платформа DataRefiner является результатом многолетних усовершенствований обсуждаемых здесь подходов, но она применяется в самых разных отраслях, включая авиацию, социальные сети, обнаружение мошенничества и многое другое. Для получения дополнительной информации о вашей отрасли свяжитесь с нами по адресу [email protected].

Что мы знаем о диагностике и наблюдении?

Что было опубликовано относительно систематического, целостного подхода к диагностике (с точки зрения наблюдения за общественным здоровьем до возможности прогнозировать клинические исходы)?