Это тематическое исследование по генерации текста еще раз демонстрирует преимущество BioGPT в биомедицинской литературе для создания беглых описаний биомедицинских терминов.

Абстрактный:

Предварительно обученные языковые модели привлекают все большее внимание в области биомедицины, чему способствовал их большой успех в общей области естественного языка. Среди двух основных ветвей предварительно обученных языковых моделей в общеязыковой области, т. е. BERT (и ее варианты) и GPT (и ее варианты), первая широко изучалась в биомедицинской области, например, BioBERT и PubMedBERT. Несмотря на то, что они добились больших успехов в решении различных биомедицинских задач, отсутствие возможности генерации ограничивает область их применения. В этой статье мы предлагаем BioGPT, предметно-ориентированную генеративную языковую модель Transformer, предварительно обученную на крупномасштабной биомедицинской литературе. Мы оцениваем BioGPT на шести биомедицинских задачах обработки естественного языка и демонстрируем, что наша модель превосходит предыдущие модели в большинстве задач. В частности, мы получили 44,98 %, 38,42 % и 40,76 % F1 в задачах извлечения сквозных отношений BC5CDR, KD-DTI и DDI соответственно и 78,2 % точности в PubMedQA, создавая новую запись. Наше тематическое исследование по генерации текста еще раз демонстрирует преимущество BioGPT в биомедицинской литературе для создания беглых описаний биомедицинских терминов.

Введение

BioGPT — это LLM, обученный с нуля на основе 15 миллионов рефератов PubMed. Эта модель использовалась для шести биомедицинских задач НЛП.

  1. Извлечение сквозных отношений на BC5CDR
  2. Извлечение сквозных отношений на KD-DTI
  3. Сквозное извлечение отношений на DDI
  4. Ответы на вопросы в PubMed QA
  5. Классификация документов по HoC
  6. Генерация текста


Урок истории

BERT Контекстуализированная языковая модель на основе двунаправленного преобразователя была обучена с использованием Wikipedia и BooksCorpus. Он был обучен как задачи самоконтроля: маскированная языковая модель (MLM), в которой случайное слово заменяется специальным токеном, и предсказание следующего предложения (NSP), где 2 предложения должны быть предсказаны, вероятно ли второе предложение, учитывая первое. .

GPT Generative Pre-trained Transformer обучает крупномасштабный корпус из Интернета. GPT-2 и GPT-3 — последние модели среди GPT. Он отлично справляется с переводом, обобщением, классификацией и тонкой настройкой благодаря соответствующему дизайну подсказок.

Биомедицинский домен

Модели, обученные на общем языке, таком как BERT и GPT, дополнительно обучаются/настраиваются с использованием биомедицинской литературы, такой как рефераты PubMed и полнотекстовые статьи PubMed Central, или клинических заметок из таких данных, как MIMIC-III/IV. Они поддерживают словарь BERT, который значительно отличается от предметно-ориентированного языка. Чтобы избежать этой проблемы, языковая модель может быть предварительно обучена на корпусе биомедицинских доменов. Можно добавить некоторый дополнительный текст вне предметной области, чтобы модель могла лучше изучить язык.



PubMedBERT был обучен с нуля на 14M рефератах PubMed. ELECTRA прошла обучение на 28 млн артефактов биомедицинских данных. DARE пыталась предварительно обучить модель, используя только 0,5 млн рефератов PubMed, с упором на использование модели только для увеличения данных для задач абстракции отношений.

Задания

В данной статье рассматриваются 3 типа задач.

Извлечение отношений:(сквозное), которое формулирует задачу как задачу генерации текста, которая принимает только текст в качестве входных данных и генерирует реляционные триплеты сквозным способом без дополнительных промежуточные аннотации.

Ответ на вопрос.Обычные методы предсказывают диапазон в исходном контексте как текст ответа или предсказывают метку (например, да или нет) для более простых задач с предопределенными категориальными ответами. Генеративные модели генерируют слова-метки вместо того, чтобы предсказывать заранее определенный набор результатов (например, да или нет).

Классификация документов: этот метод строго используется для классификации документов по предопределенным категориям меток. Генеративные модели генерируют слова-метки вместо того, чтобы предсказывать заранее определенный набор результатов (например, да или нет).

Спецификации перед тренировкой

Набор данных: все рефераты, опубликованные до 2021 г., с https://pubmed.ncbi.nlm.nih.gov. Для обучения использовались только заголовок и аннотация.

Словарь: Используя fastBPE (парное кодирование Bypte), словарный запас был изучен из собранного текста. Размер словарного запаса составил 42 384 слова.

Модель: для этого обучения использовалась та же архитектура GPT-2. Основным компонентом Transformer, как и нашего BioGPT, является внимание нескольких голов. Для входных данных применяются три линейных преобразования для получения запроса Q, ключа K, и значения V, а затем выход рассчитывается следующим образом:

Где (1) h — количество голов; (2) Q, K,и Vпоровну разделены на Qi, Ki, и Viвдоль измерения объекта, i∈ {1, 2, · · · , h}; (3) Concat означает объединение всех входных данных в виде большого тензора по измерению объекта; (4) W — параметр аффинного преобразования. Выходной сигнал уровня внимания с несколькими головками затем подается на уровень прямой связи для построения слоя преобразователя (или блока преобразователя). На практике мы принимаем GPT-2medium в качестве магистральной сети, которая имеет 24 слоя, 1024 скрытых размера и 16 головок внимания, что в сумме дает 355M параметров, а наша BioGPT имеет 347M параметры (разница возникает только из-за разного размера встраивания и размера выходной проекции, вызванного разным размером словаря).

Критерии обучения: BioGPT обучается с помощью стандартной задачи языкового моделирования, как и в [5, 6]. Пусть D = {xi}iобозначает набор последовательностей, а последовательность xiсостоит из niтокенов , то есть xi= (s1 , s2 , · · · , sni). Цель обучения состоит в том, чтобы свести к минимуму отрицательную логарифмическую вероятность:

Полученные результаты:

BC5CDR: извлечение взаимосвязей Rend-to-end. Использование данных BC5CDR, которые содержат 500/500/500 документов для обучения/проверки.тестирования. Это набор данных для задач извлечения взаимосвязей между химическими заболеваниями и болезнями. Среда BioGPT и GPT-2 была точно настроена с использованием этих данных для 100 эпох с максимальной скоростью обучения 10 ^ -5 и 100 разминками.

KD-DTI: использование данных KD-DTI, которые представляют собой данные о взаимодействии лекарственного средства с мишенью, состоящих из 12 000/1 000/1 300документов, в качестве набора для обучения/валидации/тестирования. Среда BioGPT и GPT-2 была точно настроена с использованием этих данных для 30 эпох с максимальной скоростью обучения 10 ^ -5 и 1000 шагов разминки.

Корпус DDI извлечения 2013 — это набор данных для задач, связанных с лекарственными средствами. Он состоит из 792 текстов, выбранных из базы данных DrugBank, и 233 других рефератов Medline. Он содержит разделение файлов обучения/проверки/тестирования на 664/50/191. Среда BioGPT и GPT-2 была точно настроена с использованием этих данных для 100 эпох с пиковой скоростью обучения 10 ^ -4 и 500 шагов разминки.

Ответ на вопрос с использованием данных PubmedQA, которые содержат исходное разделение обучения/валидации/тестирования на 450, 50 и 500 соответственно. Среда BioGPT и GPT-2 была точно настроена с использованием этих данных для 100 эпох с пиковой скоростью обучения 10 ^ -5 и 100 шагами разминки.

Классификация документов с использованием HoC (корпус признаков рака), который состоит из 1580 рефератов PubMed, вручную аннотированных экспертами на уровне предложений с десятью известными в настоящее время признаками рака. Среда BioGPT и GPT-2 была точно настроена с использованием этих данных для 20 000 эпох с максимальной скоростью обучения 10 ^ -5 и 1000 шагов разминки.

Задачи генерации текста

Не существует реального способа сравнить точность этих задач, но можно оценить различия, сравнив выходные данные GPT-2 с выходными данными BioGPT.

Формат целевой последовательности

В этом исследовании триплеты были выбраны как выбор длины последовательностей. Отношения между тройняшками были одним из следующих:

  1. Форма «субъект-глагол-объект» (SVO), где сущности соответствуют головной сущности, отношению и хвостовой сущности в триплете.
  2. «Подлежащее — это форма отношения существительного объекта» (является-из), где «существительное отношения» относится к форме отношения существительного.
  3. Форма «отношение между субъектом и объектом есть отн.существительное» (отн-есть).

Заключение:

По словам авторов, BioGPT достигает и превосходит результаты SOTA в трех задачах извлечения сквозных отношений и одной задаче ответа на вопрос. Он также демонстрирует лучшие возможности генерации биомедицинских текстов по сравнению с GPT-2 в задаче генерации текстов. Будет интересно увидеть, как эта модель применяется в более широком масштабе биомедицинских данных и в большем количестве последующих задач.



Если вы дочитали до этого момента — Спасибо! Ты герой! Чтобы поддержать меня 🔔 хлопать| Подписаться | Подписаться🔔

Стать участником по моей ссылке: https://ithinkbot.com/membership