Итак, трансферное обучение существует уже некоторое время! Что такое трансферное обучение и почему все сходят с ума по нему?
Я считаю, что Transfer Learning чрезвычайно эффективен, потому что вы можете эффективно обучать меньший набор данных, чтобы получить самые современные результаты. Мотивация трансферного обучения заключается в том, что мы можем использовать знания, которые нейронная сеть получает при изучении обобщенной задачи — обычно с большим набором данных, — а затем использовать их для конкретной задачи путем переобучения весов последних нескольких слоев. Обычно это используется, когда вы работаете с нишевой задачей или набором данных, который содержит значительно меньше данных.
Трансферное обучение очень часто используется в задачах компьютерного зрения с предварительно обученными моделями, которые обучаются в ImageNet. ImageNet — большая база данных изображений для обнаружения объектов — предоставила обобщенный набор данных, который был достаточно большим, чтобы его можно было обучить на аналогичных или последующих задачах.
Интересно, что в отличие от своего аналога, концепция использования предварительно обученной языковой модели появилась совсем недавно, в 2015 году [6]. Встраивание символов или слов используется для создания векторов, которые пытались уловить семантическое значение слова. Word2Vec и Glove широко используются для встраивания слов. Эти модели обычно используются для инициализации первого слоя нейронной сети. Это неглубокие нейронные сети, и они не так хороши для понимания тонкостей языка.
Затем пришли вы, модели с тонкой настройкой.
Долгое господство векторов слов в качестве основного метода представления НЛП привело к появлению новой захватывающей линии претендентов: ELMo, ULMFiT и преобразователь OpenAI. Эти работы попали в заголовки, продемонстрировав, что предварительно обученные языковые модели можно использовать для достижения самых современных результатов в широком диапазоне задач НЛП. Такие методы знаменуют собой переломный момент: они могут иметь такое же широкомасштабное влияние на НЛП, как и предварительно обученные модели ImageNet на компьютерное зрение.[1]
Эти модели отличались от встраивания на уровне слов, потому что они могли отражать особенности языка. Сети были глубже и могли быть точно настроены для конкретных задач. Предварительно обученные модели могут быть адаптированы для конкретной задачи двумя способами. Подходы, основанные на функциях, используются такими моделями, как ELMo, а подход, основанный на точной настройке, используется такими моделями, как преобразователь OpenAI. Преимущество использования преобразователя заключается в том, что вам просто нужно обучить один дополнительный слой для вашей нисходящей задачи.
Контекст действительно важен для понимания языка, поэтому сеть, которая могла воспринимать следующее слово так же, как и предыдущее, была превосходной. ELMo [7] обучает двунаправленный LSTM и имеет возможность придумывать контекстуализированные вложения слов.
Трансформеры придумали кое-что, что лично мне показалось очень интересным. Модель кодер-декодер исключила традиционные RNN. Это очень круто, учитывая связанные с этим преимущества.
До этого момента остается одна нерешенная часть головоломки: языковые модели традиционно являются однонаправленными, т. е. обучаются либо слева направо, либо справа налево. В своей статье — BERT — Представления двунаправленного кодировщика от трансформаторов — утверждается, что эта однонаправленная природа ограничивает возможности предварительно обученных моделей. Модель двунаправленная в прямом смысле, поэтому вы можете обучать ее, используя всего один дополнительный выходной слой.
BERT также предложил уникальную цель перед тренировкой:
Модель маскированного языка случайным образом маскирует некоторые токены из входных данных, и цель состоит в том, чтобы предсказать исходный идентификатор словаря
замаскированного слова, основываясь только на его контексте. В отличие от предварительного обучения языковой модели слева направо, цель MLM позволяет представлению объединять левый и правый контекст, что позволяет нам предварительно обучать глубокий двунаправленный преобразователь. В дополнение к маскированной языковой модели мы также вводим задачу «предсказания следующего предложения», которая совместно предварительно обучает представления текстовых пар.
— BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [10]
BERT предварительно обучается на двух задачах. Один из них — моделирование языка в маске (MLM), а второй — прогнозирование следующего предложения. Он принимает входные данные и передает их через стек уровней самоконтроля и сеть прямой связи, а затем передает их следующему кодировщику.
Тонкая настройка универсальной языковой модели (ULMFiT) — еще одна очень интригующая модель. Это обеспечило индуктивное переносное обучение для любой задачи НЛП с компьютерным зрением, таким как обучение. Имея всего 100 помеченных примеров, он соответствует эффективности обучения на основе в 100 раз большего количества данных.
- Мы предлагаем тонкую настройку универсальной языковой модели (ULMFiT), метод, который можно использовать для достижения переносного обучения, подобного CV, для любой задачи НЛП.
– Мы значительно превосходим современные решения по шести репрезентативным наборам данных классификации текста, при этом для большинства наборов данных снижается число ошибок на 18–24 %.
— Кандидатская диссертация Нейронное трансфертное обучение для обработки естественного языка [11]
В целом, трансферное обучение для обработки естественного языка является довольно новым и переживает захватывающую фазу. Как сказано в [1], это действительно похоже на момент ImageNet для НЛП.
Я помешан на майндмэппинге, но никогда не знаю, правильно ли я это делаю, тем не менее, вот майндмэп :)
Использованная литература :
- Момент ImageNet для НЛП настал от The Gradient
- Иллюстрированный BERT, ELMo и компания. (Как НЛП взломало трансферное обучение) Джей Аламмар
- Danny Luo Talk: [BERT] Предварительно подготовленные глубокие двунаправленные преобразователи для понимания языка (алгоритм) | ТДЛС
- Перенос обучения (C3W2L07) Эндрю Н.Г.
- Механизмы самоконтроля при обработке естественного языка
Alibaba Cloud - Дай, Эндрю М. и Куок В. Ле. «Полуконтролируемое последовательное обучение». Достижения в области нейронных систем обработки информации. 2015.
- Питерс, Мэтью Э. и др. «Глубокие контекстуальные представления слов». Материалы NAACL-HLT (2018).
- Ховард, Джереми и Себастьян Рудер. «Точные языковые модели для классификации текстов». Труды ACL (2018).
- Рэдфорд, Алек и др. «Улучшение понимания языка с помощью генеративного предварительного обучения».
- Джейкоб Девлин Минг-Вей Чанг Кентон Ли Кристина Тутанова. «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка»
- Себастьян Рудер (2019). «Обучение нейронному переносу для обработки естественного языка» (докторская диссертация)