Обзор последних работ по трансферному обучению для контролируемой целевой задачи.

В первом посте серии обсуждалось трансферное обучение в НЛП и публикация - Semi-supervised Sequence Learning. Мы увидели, как простой предварительный этап обучения с использованием автокодировщика последовательности улучшил результаты по всем четырем задачам классификации.

В этом посте я хотел бы дать краткий обзор следующих двух публикаций в списке. Контекстуализированное представление слов находится в центре внимания обеих публикаций. Исследователи пытаются создать представления слов, обычно известные как вложения, которые осознают контекстное значение предложения. Разница между ними заключается в процессе создания вложений слов. CoVe использует контролируемую задачу, такую ​​как машинный перевод, в то время как ELMo использует неконтролируемую задачу, такую ​​как языковое моделирование.

  • Выучено в переводе: контекстуализированные словесные векторы - CoVe
  • Глубокие контекстные представления слов - ELMo

Давайте углубимся в каждую исследовательскую публикацию и отметим сходства и различия.

Изучение перевода: контекстуализированные словесные векторы

Данные машинного перевода могут быть потенциальным эквивалентом ImageNet в НЛП. (благодаря огромному успеху передачи обучения компьютерному зрению с использованием ImageNet). Авторы пытаются доказать эту гипотезу, применяя модель внимания «последовательность-последовательность», обученную машинному переводу. Последовательные модели машинного перевода кодируют слова в контексте и декодируют их на другой язык. Эти модели обычно содержат кодировщик на основе LSTM. Они используют этот кодировщик для получения так называемых контекстных векторов.

Этот процесс состоит из двух этапов. a) Обучите модель «последовательность-последовательность-внимание» внимания машинному переводу. б) Передайте полученную информацию последующим задачам.

Данные перевода с английского на немецкий используются для обучения модели машинного перевода. Они используют стандартную двухуровневую двунаправленную сеть LSTM в качестве кодировщика (MT-LSTM), инициализированную векторами GloVe и двухуровневую однонаправленную сеть LSTM с вниманием к декодеру. Выходы предварительно обученного кодировщика MT-LSTM обрабатываются как векторы контекста.

w - это последовательность входных слов, а GloVe (w) - это последовательность векторов слов, созданная моделью GloVe. CoVe (w) - это последовательность контекстных векторов, созданная MT-LSTM.

Авторы проверяют преимущества векторов CoVe на ряде наборов данных для задач классификации, а именно - анализ настроений, классификация вопросов и следствие; и ответы на вопросы. В моделях классификации используется двусторонняя классификационная сеть [1], а в модели с ответами на вопросы используется динамическая сеть покрытий [2]. Архитектура этих сетей выходит за рамки данной статьи.

В отличие от первого обзора, где целевая задача была предопределена, здесь нет целевой задачи ниже по течению. Цель состоит в том, чтобы адаптировать векторы к любой последующей задаче.

Каждый вектор в GloVe (w) конкатенируется с соответствующим ему вектором в CoVe (w).

Авторы позволяют этим конкатенированным векторам быть входными данными для классификации и сетей с ответами на вопросы. Эти векторы остаются фиксированными на протяжении всего эксперимента (в отличие от первого обзора, где предварительно обученные веса настраиваются на целевую задачу).

Модели, использующие CoVe вместе с GloVe, стабильно работают лучше, чем модели, использующие только GloVe. Добавление встраиваемых n-грамм символов еще больше повышает производительность для некоторых задач. Они достигли новейших (на то время) характеристик в наборах данных SST-5 и SNLI. Одним из важных выводов экспериментов является следующее. Чем больше набор данных машинного перевода, тем лучше улучшается последующая целевая задача с использованием CoVe. Это один из важных выводов экспериментов. Таким образом, эта корреляция может свидетельствовать об их гипотезе об использовании данных машинного перевода в качестве эквивалента ImageNet в НЛП.

Глубокие контекстуализированные представления слов

Это исследование Института ИИ Аллена вводит еще один тип глубоких контекстных представлений слов. Цель - изучить представления, моделирующие синтаксис, семантику и многозначность (наличие множества возможных значений слова). Исследователи обучают двунаправленную сеть LSTM задаче языкового моделирования для получения векторов. Они называются ELMo (вложения из языковой модели). Векторы ELMo являются функцией всех внутренних слоев языковой модели и, следовательно, более глубокими, чем CoVe.

Двунаправленная языковая модель (biLM) представляет собой комбинацию прямой языковой модели и обратной языковой модели. Forward LM вычисляет вероятность последовательности путем моделирования вероятности токена k с учетом истории k-1 токенов. Обратный LM аналогичен прямому LM, выполняя последовательность в обратном порядке, предсказывая предыдущий токен при условии будущего контекста. Архитектура biLM сравнима с [3]. Он обучен на корпусе 1B Word Benchmark [4].

Авторы исправляют предварительно обученную biLM и используют ее для вычисления представлений для любой последующей задачи. В некоторых случаях точная настройка biLM для данных последующих задач приводит к повышению производительности. Следовательно, они точно настраивают biLM для одной эпохи на основе данных конкретной задачи, удаляя контролируемые метки, и после этого фиксируют веса во время экспериментов с задачами (в отличие от первого обзора, где они точно настраивают веса во время экспериментов с задачами). В большинстве случаев они используют точно настроенный biLM.

ELMo - это специфическая для задачи комбинация представлений промежуточного уровня в biLM. L-слой biLM вычисляет набор 2L + 1 представлений, как показано ниже.

ELMo вычисляет взвешенную комбинацию всех уровней в biLM для конкретной задачи, как показано ниже.

s ^ task - это веса, нормализованные по softmax, а скалярный параметр γ определяется экспериментально. В простейшем случае он может выбрать только последний слой, например CoVe.

Предварительно обученные вложения слов объединяются с векторами ELMo из biLM для передачи в последующие задачи в качестве входных данных.

Они проверяют эффективность векторов ELMo в различных задачах НЛП и достигают нового (на тот момент) уровня развития каждой из них. Они используют разные базовые архитектуры для каждой из задач и добавляют векторы ELMo на вход. Они обеспечивают снижение относительной погрешности в пределах 6–20% по сравнению с сильными базовыми моделями. Результаты показаны ниже.

Они показывают, что взвешенная комбинация представления из всех слоев улучшает общую производительность, чем использование только последнего слоя. ELMo превосходит CoVe в задачах, где возможно сравнение. Иногда включение ELMo на уровне вывода модели последующих задач улучшает производительность. Это также успешно устраняет неоднозначность слова в контексте, достигая многозначности. См. Пример ниже.

Эксперименты показывают, что разные слои biLM отображают разную информацию в слове. Второй уровень лучше справляется с устранением неоднозначности слов, в то время как первый уровень обеспечивает более высокую точность при маркировке POS. Таким образом, включение всех слоев biLM имеет решающее значение.

Добавление большого неконтролируемого набора данных через представления ELMo является преимуществом. Модель быстрее сходится к более высокой точности и требует меньшего обучающего набора. Это расширяет возможности использования обучающих данных моделью. Это значительно сокращает объем обучающих данных, необходимых для достижения определенного уровня производительности.

Таким образом, ELMo фиксирует синтаксис и семантику слова в контексте, используя глубокие вложения из языковой модели.

CoVe и ELMo похожи в том, как они вычисляют контекстные представления слов. Некоторые сходства -

  • Попробуйте вычислить контекстные векторы слов.
  • Используйте большой корпус для предварительной тренировки.
  • Используйте предварительно обученную модель для передачи изученной информации в виде словесных представлений.
  • Вычисленные векторы слов используются в качестве входных данных для последующих сетей, ориентированных на конкретные задачи.
  • Предварительно натренированные веса фиксируются во время тренировки заданий.

Некоторые из основных отличий -

  • CoVe использует кодировщик машинного перевода на этапе предварительного обучения для генерации представлений слов, в то время как ELMo использует языковую модель.
  • CoVe обучается на наборе данных контролируемого машинного перевода, в то время как ELMo обучается на данных неконтролируемой языковой модели.
  • CoVe обрабатывает выходные данные LSTM машинного перевода последнего уровня как векторы контекста, в то время как ELMo представляет собой взвешенную комбинацию всех уровней в языковой модели LSTM.
  • Векторы CoVe фиксируются во время обучения задачи, в то время как веса из модели biLM точно настраиваются с данными, специфичными для задачи, прежде чем они будут исправлены для обучения задаче.
  • Исследователи с CoVe используют общую архитектуру для множества последующих задач классификации, в то время как ELMo используется с сильной базовой архитектурой, специфичной для каждой задачи.

Одно из существенных различий между первым обзором и этим обзором контекстных векторов слов состоит в том, что исследователи выбирают общий набор данных для предварительного обучения независимо от задачи. Это можно рассматривать как следующий шаг на пути к созданию набора данных, подобного ImageNet.

Использованная литература:

[1] Двунаправленный поток внимания для машинного понимания

[2] Сети динамической памяти для визуального и текстового ответа на вопросы

[3] Изучение границ языкового моделирования

[4] Тест на один миллиард слов для измерения прогресса в статистическом языковом моделировании

Дальнейшее чтение:

  1. CoVe - исследовательская статья, официальная запись в блоге, код.
  2. ELMo - исследовательская статья, официальная запись в блоге, код

Это второй пост в серии, в которой я кратко рассказываю о последних публикациях о трансферном обучении в НЛП. Вы можете найти первый пост здесь. Любые отзывы / предложения приветствуются. Не стесняйтесь оставлять комментарии ниже или обращаться ко мне в Twitter или LinkedIn.