Недавняя проблема биомедицинской области заключается в том, что количество представленных статей очень велико. Что касается PubMed, которая представляет собой базу данных медицинской литературы, то это число известно, так как ежегодно добавляются сотни тысяч документов.

Из-за большого количества присланных статей также сложно прочитать аннотацию статьи и получить полное представление. В такой ситуации, даже если сообщаются полезные экспериментальные результаты, бывает, что их нельзя не заметить и использовать для исследований.

Таким образом, существует потребность в методике извлечения только необходимой информации из большого количества литературы. Это не проблема в последние несколько лет, но проблема существует по крайней мере на протяжении десятка лет.

Почему машинное обучение необходимо для извлечения информации

Для извлечения информации из текста практиковалось вручную создавать шаблон для извлечения информации путем сопоставления с шаблоном. Этот метод может быть эффективным, если мы хорошо создаем шаблоны, но в биомедицинской области шаблоны необходимо часто обновлять, поскольку новые термины появляются один за другим. Кроме того, сложно подготовить человеческие ресурсы, обладающие знаниями, позволяющими обновлять шаблоны. Таким образом, машинное обучение используется в наши дни, чтобы минимизировать потребность в человеческом труде.

Извлечение информации и распознавание именованных сущностей

При извлечении информации на основе машинного обучения первый шаг называется распознаванием объекта. Цель состоит в том, чтобы автоматически распознавать и классифицировать названные объекты. В биомедицине используются многие именованные типы сущностей, такие как гены, химические вещества, белки, названия болезней и т. Д. После извлечения их можно использовать в последующих задачах, таких как извлечение отношений, построение базы знаний и обнаружение знаний.

Конкретные вопросы в биомедицинской сфере

Хотя распознавание именованных сущностей - это первый шаг в извлечении информации, существуют проблемы, специфичные для данной области.

1. Именованная сущность, описывающая функцию как она есть
2. Выражение, которое связано конъюнкцией, например и, или
3. Именованная сущность, представляющая собой короткое сокращение.

Первым примером является «полипептид 1, активирующий аденилатциклазу». В этом случае все предложение является именованным объектом, но в то же время выражение «аденилатциклаза» также является именованным объектом. Эта вложенная структура затрудняет распознавание именованных сущностей.

Второй пример - «альфа- и бета-глобин». В этом случае мы хотим извлечь два именованных объекта: α-глобин и β-глобин, но выделить два именованных объекта сложно, поскольку большинство методов формулируют проблему распознавания именованных объектов как проблему маркировки последовательностей.

Третий пример - «ИЛ2». Это сокращение от белка «Интерлейкин 2». Трудность заключается в нормализации после распознавания в дополнение к трудности самого распознавания. Помимо распознавания IL2 как белка, необходимо уточнить, что он указывает на тот же объект, что и интерлейкин 2. Это похоже на задачу связывания сущностей.

Краткое описание метода

В прошлом исследователи использовали для определения функций, извлечения функций из текста и распознавания именованных объектов с помощью этих функций. В последние годы часто используются методы, основанные на нейронной сети, и для этого не требуется никакой функциональной инженерии. В качестве модели часто используется BiLSTM-CRF.

На мой взгляд, что касается биомедицины, я чувствую, что есть много исследований, направленных на обучение модели на небольшом количестве данных. Кажется, что аннотирование текстов в данной области требует специальных знаний, и это связано со сложностью подготовки таких специалистов. Вот почему используются такие методы, как трансферное обучение и многозадачное обучение, чтобы компенсировать нехватку данных для обучения.

Недавно была выпущена BioBERT, версия BERT для биополевых исследований, поэтому вполне вероятно, что в ближайшем будущем появятся многие методы, основанные на BioBERT.



БиоНЛП

Напоследок напишу о БиоНЛП. BioNLP - это один из семинаров по ACL, который фокусируется на обработке естественного языка в биомедицинской области, поэтому, если вы хотите знать эту область, я думаю, она вам подойдет.



Также в BioNLP будет проходить Shared Task. Он проводился в 2009, 2011, 2013, 2016 годах и состоится в этом году. В этом году выставка BioNLP 2019 будет посвящена задачам текстового вывода и ввода вопросов в области медицины. Подробнее см. Ниже.