Самоконтролируемое обучение (SSL) является основой предварительно обученных языковых моделей на основе преобразователя, и эта парадигма включает в себя решение задач предварительного обучения (PT), которые помогают в моделировании естественного языка. В этой статье мы расскажем обо всех популярных предтренировочных задачах.
Функция потерь в SSL
Функция потерь здесь представляет собой просто взвешенную сумму потерь отдельных задач предварительного обучения, на которых обучается модель.
Взяв в качестве примера BERT, потеря будет представлять собой взвешенную сумму MLM (моделирование маскированного языка) и NSP (предсказание следующего предложения).
За прошедшие годы появилось много предтренировочных задач, которые придумали для решения конкретных задач. Мы рассмотрим 10 интересных и популярных из них вместе с соответствующими функциями потерь:
- Каузальное языковое моделирование (CLM)
- Моделирование маскированного языка (MLM)
- Обнаружение замененного токена (RTD)
- Обнаружение перетасованных токенов (STD)
- Случайная замена токена (RTS)
- Моделирование подкачки языка (SLM)
- Моделирование языка перевода (TLM)
- Моделирование на альтернативном языке (ALM)
- Границы предложения (SBO)
- Предсказание следующего предложения (NSP)
(Функции потерь для каждой задачи и содержание в значительной степени заимствованы из AMMUS: обзор предварительно обученных моделей на основе преобразователей в обработке естественного языка)
- Это просто однонаправленная языковая модель, которая предсказывает следующее слово с учетом контекста.
- Использовался в качестве предтренировочного задания в GPT-1.
- Убыток для CLM определяется как:
- Улучшение по сравнению с каузально-языковым моделированием (CLM), поскольку CLM учитывает только однонаправленный контекст при прогнозировании текста, тогда как MLM использует двунаправленный контекст.
- Впервые он был использован в качестве предтренировочного задания в BERT.
- Вместо того, чтобы маскировать токены с помощью [MASK], RTD заменяет токен другим токеном (используя модель генератора) и обучает модель классифицировать, являются ли данные токены фактическими или замененными токенами (используя модель генератора). >модель дискриминатора)
- Улучшает 2 из следующих недостатков MLM:
Недостаток 1:
токен [MASK] появляется во время предварительного обучения, но не во время тонкой настройки — это создает несоответствие между двумя сценариями.
RTD устраняет эту проблему, поскольку не не использовать маскировку
Недостаток 2:
В МЛМ обучающий сигнал подается только 15% токенов, так как потери вычисляются только с использованием этих замаскированных токенов, но в RTD сигнал подается всеми токены, поскольку каждый из них классифицируется как «замененный» или «оригинальный»
- RTD использовался в ELECTRA в качестве предтренировочной задачи. Архитектура ELECTRA показана ниже:
- Аналогично RTD, но здесь жетоны классифицируются как перемешанные или нет, а не замененные или нет (показано ниже).
- Достигает той же эффективности выборки, что и в RTD, по сравнению с MLM
- Убыток определяется как:
- RTD использует генератор для искажения предложения, что требует значительных вычислительных ресурсов.
RTS обходит эту сложность, просто заменяя 15% токенов, используя токены из словаря, достигая такой же точности, как MLM, как показано здесь.
- SLM искажает последовательность, заменяя 15% токенов случайными токенами.
- Это похоже на MLM с точки зрения попытки предсказать поврежденные токены, но вместо использования [MASK] для маскировки используются случайные токены.
- Он похож на RTS с точки зрения использования случайных токенов для искажения, но, в отличие от RTS, он неэффективен с точки зрения выборки, поскольку только 15% токенов используются для предоставления обучающего сигнала.
- TLM также известен как межъязыковой MLM, в котором входные данные представляют собой пару параллельных предложений (предложений из двух разных языков) с токенами, замаскированными, как в MLM.
- Оно использовалось в качестве предварительного задания в XLM, межъязыковой модели для изучения межъязыкового сопоставления.
- Потеря TLM аналогична потере MLM:
- Выучить межъязыковую языковую модель, аналогичную TLM, где параллельные предложения переключаются кодом, является задачей, как показано ниже:
При переключении кода некоторые фразы x заменяются на y, и полученная таким образом выборка используется для обучения модели.
- Стратегия маскировки похожа на МЛМ.
- Включает маскирование непрерывного диапазона токенов в предложении, а затем использование модели для прогнозирования замаскированных токенов на основе выходных представлений граничных токенов.
- Использовался в качестве предтренировочного задания в SpanBERT.
- Убыток определяется как:
- Это задание на уровне предложения, которое помогает модели изучить взаимосвязь между предложениями.
- Это задача бинарной классификации, которая включает в себя определение того, являются ли два предложения последовательными, используя выходное представление токена [CLS].
- Обучение проводится с использованием 50% положительных и 50% отрицательных образцов, где второе предложение не следует за первым предложением.
Есть много других интересных задач, которые собраны в AMMUS!! Спасибо авторам, и, пожалуйста, прочтите, если найдете это интересным)