Самоконтролируемое обучение (SSL) является основой предварительно обученных языковых моделей на основе преобразователя, и эта парадигма включает в себя решение задач предварительного обучения (PT), которые помогают в моделировании естественного языка. В этой статье мы расскажем обо всех популярных предтренировочных задачах.

Функция потерь в SSL
Функция потерь здесь представляет собой просто взвешенную сумму потерь отдельных задач предварительного обучения, на которых обучается модель.

Взяв в качестве примера BERT, потеря будет представлять собой взвешенную сумму MLM (моделирование маскированного языка) и NSP (предсказание следующего предложения).

За прошедшие годы появилось много предтренировочных задач, которые придумали для решения конкретных задач. Мы рассмотрим 10 интересных и популярных из них вместе с соответствующими функциями потерь:

  1. Каузальное языковое моделирование (CLM)
  2. Моделирование маскированного языка (MLM)
  3. Обнаружение замененного токена (RTD)
  4. Обнаружение перетасованных токенов (STD)
  5. Случайная замена токена (RTS)
  6. Моделирование подкачки языка (SLM)
  7. Моделирование языка перевода (TLM)
  8. Моделирование на альтернативном языке (ALM)
  9. Границы предложения (SBO)
  10. Предсказание следующего предложения (NSP)

(Функции потерь для каждой задачи и содержание в значительной степени заимствованы из AMMUS: обзор предварительно обученных моделей на основе преобразователей в обработке естественного языка)

  • Это просто однонаправленная языковая модель, которая предсказывает следующее слово с учетом контекста.
  • Использовался в качестве предтренировочного задания в GPT-1.
  • Убыток для CLM определяется как:

  • Улучшение по сравнению с каузально-языковым моделированием (CLM), поскольку CLM учитывает только однонаправленный контекст при прогнозировании текста, тогда как MLM использует двунаправленный контекст.
  • Впервые он был использован в качестве предтренировочного задания в BERT.

  • Вместо того, чтобы маскировать токены с помощью [MASK], RTD заменяет токен другим токеном (используя модель генератора) и обучает модель классифицировать, являются ли данные токены фактическими или замененными токенами (используя модель генератора). >модель дискриминатора)
  • Улучшает 2 из следующих недостатков MLM:

Недостаток 1:
токен [MASK] появляется во время предварительного обучения, но не во время тонкой настройки — это создает несоответствие между двумя сценариями.
RTD устраняет эту проблему, поскольку не не использовать маскировку

Недостаток 2:
В МЛМ обучающий сигнал подается только 15% токенов, так как потери вычисляются только с использованием этих замаскированных токенов, но в RTD сигнал подается всеми токены, поскольку каждый из них классифицируется как «замененный» или «оригинальный»

  • RTD использовался в ELECTRA в качестве предтренировочной задачи. Архитектура ELECTRA показана ниже:

  • Аналогично RTD, но здесь жетоны классифицируются как перемешанные или нет, а не замененные или нет (показано ниже).

  • Достигает той же эффективности выборки, что и в RTD, по сравнению с MLM
  • Убыток определяется как:

  • RTD использует генератор для искажения предложения, что требует значительных вычислительных ресурсов.
    RTS обходит эту сложность, просто заменяя 15% токенов, используя токены из словаря, достигая такой же точности, как MLM, как показано здесь.

  • SLM искажает последовательность, заменяя 15% токенов случайными токенами.
  • Это похоже на MLM с точки зрения попытки предсказать поврежденные токены, но вместо использования [MASK] для маскировки используются случайные токены.
  • Он похож на RTS с точки зрения использования случайных токенов для искажения, но, в отличие от RTS, он неэффективен с точки зрения выборки, поскольку только 15% токенов используются для предоставления обучающего сигнала.

  • TLM также известен как межъязыковой MLM, в котором входные данные представляют собой пару параллельных предложений (предложений из двух разных языков) с токенами, замаскированными, как в MLM.
  • Оно использовалось в качестве предварительного задания в XLM, межъязыковой модели для изучения межъязыкового сопоставления.

  • Потеря TLM аналогична потере MLM:

  • Выучить межъязыковую языковую модель, аналогичную TLM, где параллельные предложения переключаются кодом, является задачей, как показано ниже:

При переключении кода некоторые фразы x заменяются на y, и полученная таким образом выборка используется для обучения модели.

  • Стратегия маскировки похожа на МЛМ.

  • Включает маскирование непрерывного диапазона токенов в предложении, а затем использование модели для прогнозирования замаскированных токенов на основе выходных представлений граничных токенов.

  • Использовался в качестве предтренировочного задания в SpanBERT.
  • Убыток определяется как:

  • Это задание на уровне предложения, которое помогает модели изучить взаимосвязь между предложениями.
  • Это задача бинарной классификации, которая включает в себя определение того, являются ли два предложения последовательными, используя выходное представление токена [CLS].
  • Обучение проводится с использованием 50% положительных и 50% отрицательных образцов, где второе предложение не следует за первым предложением.

Есть много других интересных задач, которые собраны в AMMUS!! Спасибо авторам, и, пожалуйста, прочтите, если найдете это интересным)