Соединение точек между MLE и RL для генерации последовательности

Кросспостинг в Блоге Petuum.

Генерация последовательности — повсеместная проблема во многих приложениях, таких как машинный перевод, суммирование текста, создание подписей к изображениям и т. д.

Недавно мы опубликовали бумагу о единой перспективе множества хорошо используемых алгоритмов обучения для генерации последовательностей, основанных на обобщенной энтропийной регуляризованной формулировке оптимизации политики. Мы показываем, что эти алгоритмы математически эквивалентны указанию определенных конфигураций гиперпараметров в рамках. Новая принципиальная трактовка обеспечивает систематическое понимание и сравнение алгоритмов и вдохновляет на дальнейшее совершенствование. Мы также предлагаем новый алгоритм интерполяции, основанный на универсальной структуре, который демонстрирует последовательное улучшение машинного перевода и суммирования текста.

Разработка моделей последовательностей, таких как рекуррентные нейронные сети (RNN) с различными ячейками и механизмами внимания, позволила значительно продвинуться в задачах, требующих генерации последовательностей. Эти модели можно обучать с помощью различных алгоритмов обучения, которые мы опишем ниже.

Популярные алгоритмы (точки)

Стандартный алгоритм обучения основан на оценке максимального правдоподобия (MLE), которая направлена ​​на максимизацию логарифмического правдоподобия последовательностей достоверности. Несмотря на свою вычислительную простоту и эффективность, обучение MLE страдает от смещения экспозиции, то есть модель обучается предсказывать следующий токен на основе токенов истинности, которые были раньше. Поскольку результирующая модель не имеет доступа к достоверной информации, во время тестирования токены, сгенерированные самой моделью, используются для следующего прогноза. Это несоответствие между обучением и тестированием может привести к быстрому накоплению ошибок в прогнозировании.

Было предпринято несколько попыток решить эту проблему, многие из которых прибегают к методам обучения с подкреплением (RL). Например, Ranzato et al., 2015 применяет алгоритм градиента политики, который позволяет избежать несоответствия обучения/тестирования за счет использования одной и той же стратегии декодирования как во время обучения, так и во время тестирования. Однако подходы к генерации последовательностей на основе RL могут столкнуться с чрезмерно низкой эффективностью выборки и высокой дисперсией.

Для более практического обучения другие разработали разнообразный набор методов, которые находятся посередине между парадигмами MLE и RL. Например, RAML (Norouzi et al., 2016) добавляет возмущение с учетом вознаграждения в примеры данных MLE, SPG (Ding & Soricut, 2017) использует распределение вознаграждения для эффективной выборки градиента политики и другие подходы, такие как зашумление данных (Xie et al., 2017) также показывает улучшенные результаты.

Оценка максимального правдоподобия (MLE)

Оценка максимального правдоподобия является наиболее широко используемым подходом к обучению модели генерации последовательности из-за его простоты и эффективности. MLE стремится найти оптимальное значение параметра, которое максимизирует логарифмическую вероятность данных:

Расширенная максимальная вероятность вознаграждения (RAML)

Первоначально RAML был предложен для включения вознаграждения за метрики задач в обучение MLE и показал превосходную производительность по сравнению с обычным MLE. В частности, RAML вводит экспоненциальное распределение вознаграждения e(y|y*) ∝ exp{R(y|y*)}, где R, как и в обычной оптимизации политик, представляет собой метрику задачи, такую ​​как BLEU. RAML максимизирует следующую цель:

Цель RAML сводится к обычной цели MLE, если мы заменяем награду за задачу R в e(y|y*) с вознаграждением MLE δ, которое представляет собой функцию вознаграждения, определяемую как:

Зашумление данных

Добавление шума к обучающим данным — широко распространенный метод регуляризации моделей. В предыдущей работе было предложено несколько стратегий зашумления данных в контексте генерации последовательности. Например, зашумление униграммы с вероятностью γ заменяет каждый токен в данныхy* образцом частоты униграммы. распределение. Полученные зашумленные данные затем используются в обучении MLE. Формально это эквивалентно использованию вознаграждения:

где u(·) – частотное распределение униграмм. С ослабленным (то есть сглаженным) вознаграждением зашумление данных расширяет пространство исследования ванильного MLE локально. Эффект, по сути, такой же, как у алгоритма RAML, за исключением того, что RAML расширяет пространство исследования на основе вознаграждения за метрику задачи.

Градиент политики Softmax (SPG)

SPG был разработан с целью адаптации ванильного градиента политики для использования в качестве вознаграждения за выборку. SPG преследует следующие цели:

где R — общая награда. Как вариант стандартного алгоритма градиента политики, SPG направлен на решение проблемы смещения экспозиции и показывает многообещающие результаты.

Соединение точек

Мы устанавливаем единую перспективу этого широкого набора алгоритмов обучения. В частности, мы представляем обобщенную структуру энтропийно-регуляризованнойоптимизации политик (ERPO) и показываем, что кажущиеся разными алгоритмы, такие как MLE, RAML, SPG и зашумление данных, могут быть переформулированы как частные случаи. фреймворка с той лишь разницей, что выбор вознаграждения и значения нескольких гиперпараметров.

В дополнение к новому пониманию существующих алгоритмов наша единая точка зрения также способствует разработке новых алгоритмов для улучшения обучения. Мы представляем пример нового алгоритма, который по мере обучения постепенно расширяет пространство исследования за счет отжига значений вознаграждения и гиперпараметров. Отжиг, по сути, динамически интерполирует существующие алгоритмы. Эксперименты по машинному переводу и суммированию текста показывают, что алгоритм интерполяции обеспечивает значительное улучшение по сравнению с различными существующими методами.

Общая структура

Наша общая структура направлена ​​на объединение всех вышеперечисленных алгоритмов общей математической формулировкой. Платформа основана на оптимизации политики, которая, как правило, максимизирует ожидаемое вознаграждение в соответствии с моделью распределения. Богатое направление исследований в области энтропийно-регуляризованной оптимизации политик (ERPO) стабилизировало обучение, дополнив оптимизацию политик теоретико-информационными регуляризаторами. Здесь мы представляем обобщенную формулировку ERPO. В частности, предполагая вариационное распределение q(y|x), мы принимаем цель:

где (x, y*) — пара из обучающих данных; y — предложение, выбранное после распределения q(y|x); KL(·||·) – расхождение KL; H(·) — энтропия Шеннона; α и β являются балансирующими весами соответствующих терминов; а — модель генерации последовательности, параметризованная с помощью θ.

Используя метод множителей Лагранжа, эту цель можно максимизировать с помощью процедуры в стиле EM, которая повторяет два шага подъема по координате, оптимизируя q и θ соответственно. На итерации n:

Другие алгоритмы как особые экземпляры

Принимая структуру ERPO, мы можем охарактеризовать другие алгоритмы генерации последовательностей как особые экземпляры внутри нее.

Оценка максимального правдоподобия (MLE)

Пусть (R = Rδ, α → 0, β = 1). Из шага E ERPO мы имеемq(y|x) = 1if y = y* и 0 в противном случае. Таким образом, M-шаг эквивалентен

который точно восстанавливает цель MLE.

То есть MLE можно рассматривать как экземпляр алгоритма оптимизации политик с вознаграждением δ и указанными выше значениями веса. Любая выборка y, которая не соответствует точно данным y*, получит отрицательное бесконечное вознаграждение и никогда не будет способствовать модель обучения.

Расширенная максимальная вероятность вознаграждения (RAML)

Как мы уже говорили, цель RAML сводится к обычной цели MLE, если мы заменяем награду за задачу R в e(y|y*) с наградой MLE δ. Связь между MLE и RAML сохраняется в рамках ERPO. Аналогично тому, как мы восстановили MLE из ERPO, если мы допустим (α → 0, β = 1), но установим R к вознаграждению за метрику задачи, то M-шаг ERPO в точности эквивалентен максимизации указанной выше цели RAML.

Зашумление данных

Хотя в предыдущей литературе описывались такие методы, как включение этапа предварительной обработки данных, который отличается от описанных выше алгоритмов обучения, структура ERPO также может включать зашумление данных в качестве особого случая. В частности, начиная с переформулировки ERPO MLE, которая принимает (R = Rδ, α → 0, β = 1), зашумление данных можно сформулировать как использование униграмм- расслабленный обсуждался выше.

Градиент политики Softmax (SPG)

SPG также может легко вписаться в нашу структуру ERPO. Взяв градиент цели SPG относительно θ, мы немедленно получим то же правило обновления, что и в ERPO с (α = 1, β = 0, R = обычная награда).

Обратите внимание, что единственная разница между конфигурацией SPG и RAML заключается в том, что теперь α = 1. Таким образом, SPG делает шаг вперед по сравнению с RAML, используя как вознаграждение, так и модель распределения для полного исследования. Теоретически достаточное исследование во время обучения должно повысить производительность во время тестирования. Однако с увеличением сложности обучения необходимо использовать дополнительные сложные методы оптимизации и аппроксимации (Ding & Soricut, 2017), чтобы сделать обучение практичным.

Применение: алгоритм интерполяции

В нашей обобщенной структуре ERPO ряд широко используемых алгоритмов обучения можно рассматривать как экземпляры структуры с определенными спецификациями трех гиперпараметров (R, α, β). Каждый из алгоритмов можно рассматривать как точку в пространстве гиперпараметров (рис. 1). Как правило, балл с более ограниченной функцией вознаграждения R и очень маленьким α имеет меньшую эффективную исследовать пространство и обеспечить эффективное обучение (например, MLE), в то время как, напротив, точка с плавным R и большим α приведет к более сложной проблеме обучения, но позволит провести более тщательное исследование и повысить производительность во время тестирования (например, (softmax) градиент политики). В нашей статье мы также исследуем пример алгоритма, который интерполирует существующие.

Алгоритм интерполяции использует естественную идею начать обучение с самой ограниченной, но простой конфигурации задачи и постепенно расширяет пространство исследования, чтобы уменьшить расхождение со временем тестирования — парадигма обучения от простого к сложному. Поскольку мы сопоставили общие алгоритмы с точками в пространстве гиперпараметров, интерполяция становится очень простой и требует только отжига значений гиперпараметров.

Результаты экспериментов

Мы оцениваем приведенный выше алгоритм интерполяции на задачах машинного перевода и обобщения текста. Предлагаемый алгоритм постоянно совершенствуется по сравнению с множеством предыдущих методов, как показано на рисунках ниже.

Код

Наш код для экспериментов доступен здесь. Реализации основаны на Texar, универсальном и простом в использовании наборе инструментов для генерации текста.