Итак, трансферное обучение существует уже некоторое время! Что такое трансферное обучение и почему все сходят с ума по нему?

Я считаю, что Transfer Learning чрезвычайно эффективен, потому что вы можете эффективно обучать меньший набор данных, чтобы получить самые современные результаты. Мотивация трансферного обучения заключается в том, что мы можем использовать знания, которые нейронная сеть получает при изучении обобщенной задачи — обычно с большим набором данных, — а затем использовать их для конкретной задачи путем переобучения весов последних нескольких слоев. Обычно это используется, когда вы работаете с нишевой задачей или набором данных, который содержит значительно меньше данных.

Трансферное обучение очень часто используется в задачах компьютерного зрения с предварительно обученными моделями, которые обучаются в ImageNet. ImageNet — большая база данных изображений для обнаружения объектов — предоставила обобщенный набор данных, который был достаточно большим, чтобы его можно было обучить на аналогичных или последующих задачах.

Интересно, что в отличие от своего аналога, концепция использования предварительно обученной языковой модели появилась совсем недавно, в 2015 году [6]. Встраивание символов или слов используется для создания векторов, которые пытались уловить семантическое значение слова. Word2Vec и Glove широко используются для встраивания слов. Эти модели обычно используются для инициализации первого слоя нейронной сети. Это неглубокие нейронные сети, и они не так хороши для понимания тонкостей языка.

Затем пришли вы, модели с тонкой настройкой.

Долгое господство векторов слов в качестве основного метода представления НЛП привело к появлению новой захватывающей линии претендентов: ELMo, ULMFiT и преобразователь OpenAI. Эти работы попали в заголовки, продемонстрировав, что предварительно обученные языковые модели можно использовать для достижения самых современных результатов в широком диапазоне задач НЛП. Такие методы знаменуют собой переломный момент: они могут иметь такое же широкомасштабное влияние на НЛП, как и предварительно обученные модели ImageNet на компьютерное зрение.[1]

Эти модели отличались от встраивания на уровне слов, потому что они могли отражать особенности языка. Сети были глубже и могли быть точно настроены для конкретных задач. Предварительно обученные модели могут быть адаптированы для конкретной задачи двумя способами. Подходы, основанные на функциях, используются такими моделями, как ELMo, а подход, основанный на точной настройке, используется такими моделями, как преобразователь OpenAI. Преимущество использования преобразователя заключается в том, что вам просто нужно обучить один дополнительный слой для вашей нисходящей задачи.

Контекст действительно важен для понимания языка, поэтому сеть, которая могла воспринимать следующее слово так же, как и предыдущее, была превосходной. ELMo [7] обучает двунаправленный LSTM и имеет возможность придумывать контекстуализированные вложения слов.

Трансформеры придумали кое-что, что лично мне показалось очень интересным. Модель кодер-декодер исключила традиционные RNN. Это очень круто, учитывая связанные с этим преимущества.

До этого момента остается одна нерешенная часть головоломки: языковые модели традиционно являются однонаправленными, т. е. обучаются либо слева направо, либо справа налево. В своей статье — BERT — Представления двунаправленного кодировщика от трансформаторов — утверждается, что эта однонаправленная природа ограничивает возможности предварительно обученных моделей. Модель двунаправленная в прямом смысле, поэтому вы можете обучать ее, используя всего один дополнительный выходной слой.

BERT также предложил уникальную цель перед тренировкой:

Модель маскированного языка случайным образом маскирует некоторые токены из входных данных, и цель состоит в том, чтобы предсказать исходный идентификатор словаря
замаскированного слова, основываясь только на его контексте. В отличие от предварительного обучения языковой модели слева направо, цель MLM позволяет представлению объединять левый и правый контекст, что позволяет нам предварительно обучать глубокий двунаправленный преобразователь. В дополнение к маскированной языковой модели мы также вводим задачу «предсказания следующего предложения», которая совместно предварительно обучает представления текстовых пар.
— BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [10]

BERT предварительно обучается на двух задачах. Один из них — моделирование языка в маске (MLM), а второй — прогнозирование следующего предложения. Он принимает входные данные и передает их через стек уровней самоконтроля и сеть прямой связи, а затем передает их следующему кодировщику.

Тонкая настройка универсальной языковой модели (ULMFiT) — еще одна очень интригующая модель. Это обеспечило индуктивное переносное обучение для любой задачи НЛП с компьютерным зрением, таким как обучение. Имея всего 100 помеченных примеров, он соответствует эффективности обучения на основе в 100 раз большего количества данных.

- Мы предлагаем тонкую настройку универсальной языковой модели (ULMFiT), метод, который можно использовать для достижения переносного обучения, подобного CV, для любой задачи НЛП.
 – Мы значительно превосходим современные решения по шести репрезентативным наборам данных классификации текста, при этом для большинства наборов данных снижается число ошибок на 18–24 %.
— Кандидатская диссертация Нейронное трансфертное обучение для обработки естественного языка [11]

В целом, трансферное обучение для обработки естественного языка является довольно новым и переживает захватывающую фазу. Как сказано в [1], это действительно похоже на момент ImageNet для НЛП.

Я помешан на майндмэппинге, но никогда не знаю, правильно ли я это делаю, тем не менее, вот майндмэп :)

Использованная литература :

  1. Момент ImageNet для НЛП настал от The Gradient
  2. Иллюстрированный BERT, ELMo и компания. (Как НЛП взломало трансферное обучение) Джей Аламмар
  3. Danny Luo Talk: [BERT] Предварительно подготовленные глубокие двунаправленные преобразователи для понимания языка (алгоритм) | ТДЛС
  4. Перенос обучения (C3W2L07) Эндрю Н.Г.
  5. Механизмы самоконтроля при обработке естественного языка
    Alibaba Cloud
  6. Дай, Эндрю М. и Куок В. Ле. «Полуконтролируемое последовательное обучение». Достижения в области нейронных систем обработки информации. 2015.
  7. Питерс, Мэтью Э. и др. «Глубокие контекстуальные представления слов». Материалы NAACL-HLT (2018).
  8. Ховард, Джереми и Себастьян Рудер. «Точные языковые модели для классификации текстов». Труды ACL (2018).
  9. Рэдфорд, Алек и др. «Улучшение понимания языка с помощью генеративного предварительного обучения».
  10. Джейкоб Девлин Минг-Вей Чанг Кентон Ли Кристина Тутанова. «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка»
  11. Себастьян Рудер (2019). «Обучение нейронному переносу для обработки естественного языка» (докторская диссертация)