Университет Макгилла, Facebook и Мила выпустили 14 млн статей о предварительном обучении НЛП для медицинских ...

На семинаре EMNLP 2020 Clinical NLP на прошлой неделе исследовательская группа из Монреаля представила большой набор медицинских текстовых данных, предназначенный для улучшения устранения неоднозначности аббревиатур в медицинской сфере.

Нигде правильная терминология не является более важной, чем в медицине и здравоохранении, где интеллектуальный анализ текста и обработка естественного языка могут создавать модели глубокого обучения для прогнозирования диагнозов и других задач. К сожалению, исследования и клинические приложения в этой области пострадали из-за отсутствия общедоступных данных для предварительного обучения из-за ограничений конфиденциальности и избытка нестандартных сокращений в доступных данных. Организация по обеспечению безопасности пациентов Институт безопасной медицинской практики ранее в этом году перечислила не менее 55 000 медицинских сокращений, которые могут не передавать с какой-либо достоверностью их предполагаемое значение и представлять возможную опасность для здоровья пациентов.

Исследователи из Университета Макгилла, кафедры искусственного интеллекта CIFAR в Facebook и Мила - Квебекский институт искусственного интеллекта представили набор Me dical D для A bbreviation Disambiguation for Natural L anguage Understanding (MeDAL), чтобы отсортировать все эти противоречивые, двусмысленные и потенциально опасные сокращения.

MeDAL, созданный на основе рефератов PubMed, выпущенных в годовом исчислении 2019 года, представляет собой большой набор данных медицинских текстов, предназначенных для решения задач устранения неоднозначности медицинских аббревиатур, которые можно использовать для предварительного обучения моделей понимания естественного языка. Набор данных включает 14 393 619 статей и в среднем по три аббревиатуры на статью. Исследователи говорят, что предварительное обучение на MeDAL приводит к повышению производительности модели и скорости сходимости при точной настройке последующих медицинских задач.

В отличие от существующих медицинских методов устранения неоднозначности аббревиатуры, которые сосредоточены на повышении эффективности устранения неоднозначности аббревиатуры, предлагаемый подход использует устранение неоднозначности аббревиатуры в качестве задачи предварительного обучения для передачи обучения другим клиническим задачам. Команда создала набор данных, достаточно большой для эффективного предварительного обучения, поскольку существующие наборы данных для устранения неоднозначности медицинских аббревиатур очень малы по сравнению с теми, которые используются для предварительного обучения общеязыковой модели.

Команда провела оценку таких задач, как прогнозирование смертности и прогнозирование диагнозов, используя LSTM, LSTM + Self Attention и модели преобразователей. В задаче прогнозирования смертности все три предварительно обученные модели показали лучшие результаты, чем их созданные с нуля аналоги. В задаче прогнозирования диагностики производительность как LSTM, так и LSTM + самовнимания увеличилась более чем на 70 процентов.

Результаты показывают, что предварительное обучение набору данных MeDAL может в целом улучшить возможности понимания языка моделей в медицинской области.

Статья MeDAL: набор данных для устранения неоднозначности медицинских аббревиатур для предварительного обучения пониманию естественного языка посвящена Антологии ACL. Код находится на GitHub. Набор данных MeDAL находится на Kaggle или Zenodo. Веб-сайт EMNLP 2020 (Эмпирические методы обработки естественного языка) находится здесь.

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Университет Макгилла, Facebook и Мила выпустили 14 млн статей о предварительном обучении НЛП для медицинских ...

Вопросы по теме