Передовые технологии, революционизирующие чат-боты

Модели вопросов-ответов (QA) способны извлекать информацию из основной части текста (известной как контекст) или их базы знаний; эта информация затем используется для получения ответа на заданный вопрос. Модели контроля качества все чаще используются в различных приложениях, включая чат-боты, виртуальных помощников, машинный перевод и анализ настроений.

Модели QA бывают двух типов:

  • Extractive QA:модели, которые извлекают ответ из предоставленного контекста.
  • Генеративный контроль качества:модель, которая создает совершенно новый текст на основе вопроса, с контекстом или без него. Если контекст не указан, текст генерируется на основе основного текста, использованного при обучении режима.

Ниже приведен список основных моделей обеспечения качества, доступных в настоящее время, представленных в хронологическом порядке:

  1. BERT (Представления двунаправленного кодировщика от трансформеров) – это модель НЛП на основе преобразователя, разработанная Google в 2018 году. BERT – это двунаправленная модель, то есть она может учитывать как левые и правильный контекст слова при предсказании. Это отличается от предыдущих однонаправленных моделей НЛП, которые могли обрабатывать только слева направо и справа налево. Архитектура BERT сочетает в себе два типа преобразователей: моделирование маскированного языка и предсказание следующего предложения.
  2. RoBERTa (Надежно оптимизированный подход к предварительному обучению BERT) – это расширение BERT с многоуровневыми кодировщиками двунаправленного преобразования, которые обучены предсказывать пропущенные слова в предложении. Поскольку он оптимизирован для предварительного обучения на большем и более разнообразном корпусе текстовых данных, он может обеспечить более высокую производительность, чем BERT, в некоторых задачах NLP, включая вопросы и ответы.
  3. T5 (Трансформатор преобразования текста в текст) – это модель на основе преобразователя, представленная компанией Google в 2019 году. Архитектура аналогична другим моделям на основе преобразователя, но отличается включает формат преобразования текста в текст для предварительного обучения. Одно из преимуществ T5 заключается в том, что его можно точно настроить для конкретных задач НЛП, используя лишь небольшой объем данных, специфичных для задачи, что является значительным преимуществом в приложениях, где большие объемы размеченных данных недоступны.
  4. XLNet(Экстремальное многозадачное обучение с новой проекцией с учетом задач) была представлена ​​исследователями из Университета Карнеги-Меллона и Google в 2019 году. подход к предварительному обучению, который позволяет учитывать все возможные перестановки слов в предложении, а не только контексты слева направо или справа налево, используемые в предыдущих моделях. Это позволяет XLNet изучать более сложные и тонкие отношения между словами в предложении, что приводит к повышению производительности в нескольких тестах НЛП.
  5. ELECTRA (Эффективное обучение кодировщику, который точно классифицирует замены токенов) был представлен исследователями из Google в 2020 году. ELECTRA использует модель генератора для создания набора синтетических обучающих примеров. , где каждый пример состоит из предложения, в котором случайно выбранное слово заменено правдоподобной заменой. Затем модель дискриминатора обучается различать исходные и замененные слова в каждом предложении. Этот подход более эффективен в вычислительном отношении, чем другие подходы к предварительному обучению, такие как моделирование маскированного языка, используемое BERT, при этом достигается сопоставимая или лучшая производительность в нескольких задачах NLP.
  6. GPT (Generative Pre-trained Transformer) относится к серии моделей обработки естественного языка (NLP), разработанных OpenAI. Первая модель GPT, GPT-1, была представлена ​​в 2018 году и имела 117 миллионов параметров. Он был предварительно обучен на большом количестве веб-страниц и книг и был точно настроен для различных задач НЛП, включая классификацию текста и языковое моделирование. Более крупная модель с 1,5 миллиардами параметров, именуемая GPT-2, была выпущена в 2019 году. Наконец, в 2020 году была выпущена модель GPT-3 со 175 миллиардами параметров. Одно из ключевых отличий от предыдущей модели заключается в том, что Модели GPT являются генеративными моделями, то есть они могут генерировать совершенно новый текст на основе заданной подсказки или ввода. Это сделало их особенно полезными для таких задач, как генерация языка и чат-боты.

Точность моделей QA оценивается на основе двух типов метрик, а именно: Exact Match и F1-score. Точное совпадение оценивает, является ли сгенерированный ответ точным совпадением с достоверным ответом, предоставленным в контексте; оценка F1 рассчитывается на основе количества правильно предсказанных токенов. Производительность моделей контроля качества обычно оценивается на основе эталонных наборов данных, таких как SQuAD (Стэнфордский набор данных для ответов на вопросы). Этот набор данных состоит из более чем 100 000 пар вопросов и ответов, каждая из которых имеет соответствующий абзац текста из статей Википедии в качестве контекста. С момента своего выпуска в 2016 году SQuAD стал одним из наиболее широко используемых эталонных наборов данных для оценки производительности моделей обеспечения качества.

В заключение можно сказать, что модели ответов на вопросы (QA) стали мощным инструментом обработки естественного языка (NLP) для различных приложений, таких как чат-боты, виртуальные помощники и анализ настроений. В этой статье представлен обзор двух типов моделей обеспечения качества: экстрактивное обеспечение качества и генеративное обеспечение качества, а также рассмотрены основные доступные в настоящее время модели обеспечения качества, включая BERT, RoBERTa, T5, XLNet, ELECTRA и GPT. Мы также подчеркнули важность эталонных наборов данных, таких как SQuAD, для оценки производительности моделей обеспечения качества. Поскольку исследования в области NLP продолжают развиваться, модели обеспечения качества, вероятно, будут играть все более важную роль, позволяя машинам понимать и обрабатывать естественный язык.

Если вам понравилась статья и вы хотите поддержать меня, вы можете: