Обработка естественного языка (NLP) является одним из самых популярных инновационных вариантов использования, доминирующих в ландшафте ИИ, при этом глобальный рынок NLP по прогнозам будет стоить 48,46 миллиарда долларов к 2026 году. Пандемия еще больше ускорила рост рынка, особенно в секторе здравоохранения, и это быстрое расширение ведет к новым достижениям в этой области.

Одним из них является увеличение распространенности языковых моделей преобразователей, таких как Двунаправленные представления кодировщика из преобразователей (BERT) и Генеративный предварительно обученный преобразователь 3 (GPT-3). . Эти модели были обучены на огромных объемах данных и значительно повышают эффективность решения широкого круга проблем НЛП, прокладывая путь для новых и сложных приложений. В сочетании с гибкостью и масштабируемостью облачных вычислений модели-трансформеры еще больше приблизили передовые решения NLP к бизнесу.

Существуют важные приложения NLP в сфере здравоохранения, такие как извлечение информации из неструктурированных форматов, таких как клинические записи и результаты лабораторных исследований. Резюме текста — один из таких примеров, когда большие фрагменты текста преобразуются в краткое изложение с помощью языковой модели, что может помочь в принятии срочных решений. Например, пациент или его страховая компания могут запросить независимые обзоры медицинской необходимости назначенного лечения. В этом сценарии рецензенты должны изучить сотни документов, прежде чем прийти к выводу, что может занять очень много времени и также может привести к человеческим ошибкам. Применение реферата текста позволяет рецензенту быстро и точно преобразовать огромный объем текста в решение.

В этом блоге рассказывается о некоторых распространенных проблемах, возникающих при использовании обобщения текста в более длинных и специфичных для предметной области текстах, а также о том, как их преодолеть.

Что делает языковые модели такими мощными?

Языковые модели обычно представляют собой предварительно обученные модели, которые были обучены с использованием очень больших корпусов текста (например, BERT был обучен на 3,3 миллиардах слов) для таких задач, как предсказание отсутствующих слов. Это приводит к тому, что скрытые слои модели изучают общее понимание языка, которое затем может быть использовано для последующей задачи (в нашем случае для суммирования текста) посредством трансферного обучения.

Извлекательное и абстрактное обобщение

В НЛП есть две формы обобщения текста: экстрактивная и абстрактная.

Извлекательное обобщение – это процесс выбора заранее определенного количества предложений, наиболее важных для понимания текста.

Абстрактное обобщение, с другой стороны, создает резюме, состоящее из новых предложений путем перефразирования или использования слов, которых нет в исходном тексте. Задача абстрактного обобщения намного сложнее, чем экстрактивного, поскольку требует, чтобы языковая модель не только понимала сообщение, передаваемое текстом, но и генерировала резюме, отражающее общее понимание исходного текста.

Пример

Исходный текст: Гран-при Австралии станет первым Гран-при Австралии, в котором в эти выходные будут представлены четыре отдельные зоны DRS по кругу, поскольку Формула-1 вернется в Альберт-парк. Карта трассы Альберт-парка на официальном веб-сайте Формулы-1 была обновлена, чтобы показать, что трасса теперь имеет четыре зоны DRS для облегчения обгона. Трасса в Мельбурне претерпела серьезное перепрофилирование со времени проведения последнего Гран-при Австралии в 2019 году, при этом ряд поворотов был сделан шире и быстрее, чтобы улучшить качество гонок. Это будет первый раз, когда Гран-при проводится с четырьмя отдельными точками активации DRS по всей трассе.

Краткое резюме: Гран-при Австралии станет первым этапом, в котором в эти выходные будут представлены четыре отдельные зоны DRS, поскольку Формула-1 вернется в Альберт-парк. Трасса в Мельбурне претерпела серьезное перепрофилирование со времени проведения последнего Гран-при Австралии в 2019 году, при этом ряд поворотов был сделан шире и быстрее, чтобы улучшить качество гонок.

Абстрактное резюме: Гран-при Австралии будет состоять из четырех зон DRS, и это первая трасса, на которой это будет сделано. Со времени последнего Гран-при в 2019 году повороты трассы в Альберт-парке стали шире и быстрее, чтобы улучшить качество гонок.

Однако возникает проблема, когда мы пытаемся обобщить очень длинные фрагменты текста. Это связано с тем, что большие предварительно обученные модели обычно имеют ограничение на длину текста, который они могут принять. Например, base-BERT (наиболее популярная версия BERT) может принимать на вход только до 512 слов, что создает проблему, когда нужно резюмировать большую часть текста.

Как резюмировать длинный текст, относящийся к предметной области

Учитывая огромное внимание к COVID-19 за последние пару лет, мы хотели проверить текстовое обобщение в контексте коронавируса и использовать НЛП для обобщения исследовательских работ по COVID-19. Это поставило перед нами захватывающую задачу, так как исследовательские работы не только содержат большие и сложные тексты, но и используют предметно-ориентированный язык. Поскольку большинство популярных моделей ограничено 512 словами, мы решили создать модель, в которой используется сочетание подходов для преодоления ограничений существующих моделей.

Наш подход

Сочетание экстрактивного и абстрактного обобщения позволяет нам обобщать более длинные части текста, используя экстрактивное обобщение, чтобы уменьшить количество слов в исходном тексте до длины, достаточной для ввода в абстрактное суммирование. Извлекающий этап гарантирует сохранение только самых важных предложений, эффективно действуя как фильтр для абстрагирующего шага. Затем сокращенный текст используется для создания реферативного резюме исходного текста.

Языковые модели общего назначения, такие как BERT, с трудом могли бы понять предметно-ориентированный язык, такой как медицинская терминология. Это означало бы, что реферативному составителю будет трудно создать текст в том же стиле, что и медицинские исследовательские работы. Следовательно, нам нужно было решение для обучения нашей модели предметно-ориентированному языку.

Наши следующие шаги покажут вам, как мы решили эту проблему, и как вы можете реализовать аналогичное решение для точной настройки моделей для ваших целей.

Начало работы

1. Выберите подходящий набор данных

Чтобы предоставить более точные формы обобщения статей о COVID-19, наше решение потребовало точной настройки типа языка домена. Для этого нам нужен обучающий набор с входными данными в виде примеров текстов для обобщения и сводкой в ​​качестве метки, которую модель будет использовать в качестве исходной истины для обобщения входных данных. В нашем случае мы приобрели Открытый исследовательский набор данных COVID-19 от Kaggle с более чем 500 000 научных статей, связанных с COVID-19, SARS-CoV-2 и другими коронавирусами. Аннотация статьи была отделена от основного текста, чтобы мы могли использовать аннотацию в качестве нашей метки, а основную часть текста — в качестве входных данных для подведения итогов.

2. Резюме

Модель экстрактивного сумматора не нужно было обучать, поскольку мы используем неконтролируемый алгоритм для создания сводки. Чтобы создать экстрактивную сводку, мы:

  1. Использовали реализацию BERT Hugging Face для кодирования каждого предложения в векторы.
  2. Применен алгоритм K-ближайших соседей (KNN) (неконтролируемый алгоритм) для определения заранее определенного количества кластеров. Затем каждый кластер содержит группу предложений по определенной теме, и предполагается, что вектор предложений, ближайший к центроиду кластера, инкапсулирует значение всех предложений в кластере.
  3. Наша модель выбирает вышеупомянутое предложение из каждого кластера, чтобы создать извлекающее резюме. Важно отметить, что количество предложений в экстрактивной сводке определяется количеством кластеров, которые мы пытаемся найти в алгоритме KNN.

3. Резюме

С другой стороны, шаг абстракции можно было бы точно настроить, и мы использовали авторегрессионную модель, которая берет извлекающую сводку в качестве входных данных для модели и перефразирует ее в более связную сводку. Для нашего решения мы обучили модель двунаправленных авторегрессивных преобразователей (BART), используя реферат исследовательской работы в качестве целевого результата. Резюме было исключено из входных данных для экстрактивного сумматора, чтобы избежать утечки данных.

Обучение языковых моделей на Vertex AI

Для обучения абстрактной модели BART мы создали обучающий набор данных, состоящий из извлеченного резюме исходной исследовательской работы в качестве входных данных и соответствующего резюме в качестве целевого ярлыка. После экспериментов мы обнаружили, что 6 эпох со скоростью обучения 2e-4 являются оптимальными гиперпараметрами для модели BART. Нам потребовалось 12 000 тренировочных шагов, чтобы достичь тренировочной потери, которой мы были довольны.

Многие другие исследователи в этой проблемной области обнаружили, что ресурсы являются фактором, ограничивающим производительность модели, но мы выиграли от масштабируемости Vertex AI Workbench на GCP для использования графического процессора A100, что значительно ускорило время обучения.

Используя эту модель, мы можем обобщить сложные исследовательские работы в простые рефераты, которые требуют лишь незначительных грамматических правок и проверки смысла. Это имеет широкий спектр применений не только в секторе здравоохранения, но и во многих других отраслях, включая научные круги, юриспруденцию и бизнес.

Попробуйте эту модель сами с помощью нашего демо Covid Research Paper Summariser здесь.

Надеемся, вам понравился этот блог! Во второй части этой серии блогов будет рассказано, как мы развернули REST API с использованием конечных точек Vertex AI для обслуживания нашей модели на демонстрационном сайте. Мы также расскажем, как мы разработали внешний интерфейс React и сервер Express.js для связи с API с помощью Google Cloud App Engine.

Дататоник, четырехкратный партнер года Google по облачным технологиям, обладает богатым опытом как в области обобщения текстов, так и в разработке и развертывании моделей машинного обучения. Свяжитесь с нами, чтобы узнать, какие преимущества сотрудничество с нами может принести вашему бизнесу.