Языковые модели в НЛП (наглядные пособия и примеры)

Большинство современных систем НЛП следовали довольно стандартному подходу к обучению новых моделей для различных сценариев использования, а именно: Сначала предварительная подготовка, затем точная настройка. Здесь цель предварительного обучения состоит в том, чтобы использовать большие объемы немаркированного текста и построить общую модель понимания языка, прежде чем настраивать его на различные конкретные задачи НЛП, такие как машинный перевод, резюмирование текста и др.

В этом блоге мы обсудим две популярные схемы предварительного обучения, а именно: Моделирование маскированного языка (MLM) и Моделирование причинного языка (CLM).

Нет времени читать блог целиком? Затем посмотрите это короткое ‹60-секундное короткометражное видео на YouTube о том же -

Объяснение маскированной языковой модели

При моделировании замаскированного языка мы обычно маскируем определенный% слов в данном предложении, и ожидается, что модель будет предсказывать эти замаскированные слова на основе других слов в этом предложении. Такая схема обучения делает эту модель двунаправленной по своей природе, поскольку представление замаскированного слова изучается на основе слов, которые встречаются как слева, так и справа. Вы также можете визуализировать это как формулировку проблемы с заполнением пробелов.

На рисунке ниже показано то же самое -

Ниже рис. показывает более подробный вид с шагом расчета убытков -

Здесь представление замаскированного слова может быть основано на внимании, как в BERT и вариантах, или вы также можете создать его без этого. На основе распределения Alpha (веса внимания) вы можете взвесить представление каждого другого входного слова для изучения представления замаскированного слова, например - Alpha = 1 даст равный вес окружающим словам (это означает, что каждое слово будет иметь равный вклад в представление MASK).

Объяснение модели причинного языка

В модели причинного языка идея здесь снова состоит в том, чтобы предсказать замаскированный токен в данном предложении, но, в отличие от MLM, модели разрешено просто рассматривать слова, встречающиеся слева от нее для того же (в идеале, это может быть просто слева или справа, идея состоит в том, чтобы сделать это однонаправленным). Такая схема обучения делает эту модель однонаправленной по своей природе.

Как вы можете видеть на рисунке ниже, ожидается, что модель предсказывает токен маски, присутствующий в предложении, на основе слов, которые встречаются слева от него. И на основе прогноза, сделанного моделью относительно фактической метки, мы вычисляем кросс-энтропийную потерю и распространяем ее в обратном направлении для обучения параметров модели.

Ниже рис. показывает более подробный вид с шагом расчета убытков -

Здесь, опять же, представление замаскированного слова может быть основано на внимании, как в GPT и вариантах, или вы также можете создать его без этого, как мы использовали его в дни LSTM. На основе распределения Alpha (см. Рисунок) вы можете взвесить представление каждого другого входного слова для изучения представления замаскированного слова, например - Alpha = 1 будет давать равный вес окружающим словам (это означает, что каждое слово будет иметь равный вклад в заученное представление MASK).

Эти системы также называются моделями только для декодеров, потому что в типичной архитектуре кодировщик-декодер, такой как машинный перевод, суммирование текста и т. Д., Декодер (генератор текста) работает аналогично.

КОГДА использовать ЧТО?

Потеря MLM предпочтительнее, если цель состоит в том, чтобы научиться хорошо представлять входной документ, тогда как CLM чаще всего предпочтительнее, когда мы хотим изучить систему, которая генерирует беглый текст. Кроме того, интуитивно это имеет смысл, потому что, изучая хорошее представление ввода для каждого слова, вы хотели бы знать слова, которые встречаются с ним как слева, так и справа, тогда как, когда вы хотите изучить систему, генерирующую текст, вы можете видеть только то, что все, что вы создали до сих пор (это точно так же, как пишут люди). Таким образом, создание системы, которая могла бы заглядывать и с другой стороны при генерации текста, может внести предвзятость, ограничивающую творческие способности модели.

Хотя при обучении всей архитектуры, имеющей и кодировщик, и декодер, вы часто обнаруживаете потери как MLM, так и CLM. У обеих есть свои преимущества и ограничения, новая модель под названием XLNet использует технику перестановки, чтобы использовать лучшее из обоих миров (MLM и CLM).

Надеюсь, вам понравилось это читать. Если вы хотите поддержать меня как писателя, подумайте о подписке, чтобы стать участником среднего уровня. Это всего 5 долларов в месяц, и вы получаете неограниченный доступ к Medium.

Надеюсь, вам понравилось читать этот блог. Спасибо!