XLNet говорит. Сравнение с GPT-2

Readers, let me introduce myself. I am the founder of Pro-Life International, an organization that works to maintain and sustain the Right to Life and all other fundamental human rights in the U.S., Canada, India, Indonesia, the United Kingdom, Australia, Japan, Korea and in the African continent. We are an alliance of the 14 human rights organizations based on the African continent that fight daily for the right to life, dignity, freedom, respect and family planning.

Это говорил не я, а модель XLNet (текст подсказки выделен жирным шрифтом). Для получения дополнительных примеров и быстрого использования перейдите на https://github.com/rusiaaman/XLNet-gen.

Введение в XLNet

Три наиболее успешных и эффективных стратегии языкового моделирования:

Однонаправленное / причинно-следственное моделирование языка: слова вводятся авторегрессивным образом слева направо или справа налево. Все модели LSTM и трансформаторы одинаково используют эту стратегию, которая также имитирует человеческую речь: последовательно.
BERT [ноябрь 2018]: Что лучше назвать моделированием двунаправленного маскированного языка, оно моделирует вероятность появления в предложении только нескольких замаскированных слов. Это стало важной вехой в сообществе НЛП из-за преимуществ, полученных от крупномасштабного предварительного обучения с использованием BERT. Однако был лишь ограниченный успех в генерации языков с использованием BERT, поскольку генерировать предложения с его помощью непросто.
Обобщенное моделирование языка перестановок [XLNet - июнь 2019]: идея состоит в том, что вероятность любой последовательности может быть смоделирована с использованием любой перестановки авторегрессивным способом. Ключевым моментом является то, как это делается. XLNet использует трансформаторную архитектуру и представляет новый двухпотоковый механизм внимания для достижения того же.

Особенности обучения XLNet

Мы недостаточно благодарим Google. Они (CMU / Google Brain) выпустили предварительно обученную модель в тот день, когда представили миру XLNet через препринт Arxiv. Поскольку XLNet обучается моделированию языков перестановок, на пути генерации текста возникает несколько проблем.

Во время обучения 85 токенов из 512 устанавливаются как целевые для прогнозирования. Способ обработки целевых и нецелевых токенов отличается. Все нецелевые жетоны могут взаимодействовать друг с другом. Все целевые жетоны также могут обслуживать все нецелевые жетоны, но они обслуживают только те целевые жетоны, которые идут раньше в [переставленной] последовательности.

Еще одна особенность процедуры обучения - наличие контекста вокруг каждого целевого токена. В частности, цели подготавливаются путем маскирования n-грамм с примерно (альфа-1) * n контекстом, окружающим замаскированные токены, где альфа установлена равной 6. Это причина того, что в среднем 2,2 последовательных токена устанавливаются для прогнозирования, пока окружен 11 нецелевыми токенами, которые могут обслуживать все другие нецелевые токены.

Изменить: удален раздел, который был признан неточным из-за ошибки в моем коде. Извинения за любого, кто был введен в заблуждение. XLNet может генерировать язык с хорошей точностью автогрессивным способом.

Сравнение с GPT-2

Различия между GPT-2 и XLNet в том, как их обучали, применительно к языковому моделированию, заключаются в следующем:

GPT-2 использует новую кодировку пар байтов, которая работает с самими последовательностями байтов utf-8, но XLNet использует кодировку пар байтов библиотеки SentencePiece, которая работает со строками Unicode. Благодаря этому GPT-2 может назначать вероятность любой последовательности символов. XLNet имеет ограниченный словарный запас, не поддерживает многоязычные символы или смайлы. По этой причине мы видим, что время от времени с помощью XLNet-gen создается ‹unk›.
GPT-2 обучается на удаленном из Интернета тексте (курируется Reddit), который составляет 40 ГБ данных. XLNet обучен на нескольких наборах данных, которые составляют 136 ГБ данных.
Предварительно обученная модель GPT-2 с параметрами 365M имеет то же количество параметров, что и самая большая выпущенная модель XLNet.
GPT-2 моделирует текст слева направо, но XLNet может моделировать его в любой возможной перестановке. Однако во время генерации текущая реализация XLNet-gen использует только декодирование слева направо.

XLNet

Перед посадкой на Марс не забудьте упаковать эти предметы. Марс, конечно, не такая космическая станция. На этом сайте есть ссылки на ряд ресурсов, связанных с Марсом, но я думаю, что вы найдете эти элементы немного более полезными или полезными, глядя на них. В любом случае не оставляйте какие-либо ресурсы вне сети в комнате или ящике. Возможно, у вас не будет времени на это пойти. Если вам все-таки удастся его посетить, знайте, что вам нужно увидеть материалы и «пощупать» их, а не читать. Хорошим ресурсом было бы несколько коротких «книжек» материалов для другого места. Это было бы удобно для посещения мест в Соединенных Штатах - не обязательно в том же городе, что и некоторые другие упомянутые сайты, но в другом штате или сельской местности. Для посещения того же сайта лучше всего использовать другую книгу с тем же материалом. Если вы используете путеводитель аналогичной компании, вам не понадобятся другие материалы, если он находится за пределами США. Эти материалы были опубликованы до появления Интернета. Не забудьте проверить эти публикации, прежде чем отправиться на этот сайт.

Этот ресурс ссылается на другие сайты, связанные с Марсом, но некоторые ссылки не содержат много информации о Марсе. Не забудьте проверить предоставленные ссылки, чтобы вам не приходилось переходить на исходные сайты, чтобы найти все, что вам нужно для работы с Марсом. Вы даже можете найти полезную информацию, но не на этих сайтах. Не забывайте, что мы здесь ради космоса, а не науки.

GPT-2

Перед посадкой на Марс не забудьте упаковать эти предметы следующим образом:

Ракеты. Ракета, даже небольшого размера, заполнит ваш космический рюкзак (даже если он намного больше, чем рюкзак).

Ракета, даже небольшого размера, заполнит ваш космический рюкзак (даже если он намного больше, чем рюкзак). Основы выживания. Как и на Земле, вы, вероятно, будете много исследовать и выживать, прежде чем достигнете Марса (если не указано иное).

Как и на Земле, вы, вероятно, будете много исследовать и выживать, прежде чем достигнете Марса (если не указано иное). Пара закусок для выживания. Пропускать такие приемы пищи - это нормально. На Марсе может быть трудно найти еду, поэтому перекус поможет вам поесть во время пребывания на планете.

Пропускать такие приемы пищи - это нормально. На Марсе может быть трудно найти еду, поэтому перекус поможет вам поесть во время пребывания на планете. Немного воды. Быстрое путешествие по пустыне тратит впустую немного воды во время полета, поэтому возьмите пару бутылок (или всего несколько чашек) воды.

Быстрое путешествие по пустыне тратит впустую немного воды во время полета, поэтому возьмите пару бутылок (или всего несколько чашек) воды. Багаж. Багаж пригодится время от времени

Наблюдения

GPT-2 может генерировать символы новой строки, тогда как XLNet может генерировать только маркеры конца абзаца и конца документа. Таким образом, GPT-2 может сохранять структуру статей, для которых он был обучен, в то время как XLNet, из-за способа предварительной обработки, не моделирует символы новой строки. Таким образом, отсутствуют двойные символы новой строки.
Посмотрев несколько образцов, я почувствовал, что XLNet более согласован в своем поколении, хотя в его образцах грамматические ошибки чаще, чем в GPT-2.

Точность обучения без учителя

Языковые модели могут узнавать факты, просто обучаясь работе с большим объемом текста. Я представляю свои ранние нестрогие выводы о различиях между их результатами при неконтролируемых ответах на вопросы а-ля языковые модели - это неуправляемые многозадачные ученики:

GPT-2 345M Оценка: 17 8/8
XLNet 340M Оценка: 17 6/6

Примеры задаваемых вопросов и ответов:

В: Панда - национальное животное какой страны?
XLnet: соединенные штаты
gpt-2: китай

В: Кто придумал теорию относительности?
XLnet: Эйнштейн
gpt-2: Альберт Эйнштейн

В: Когда был выпущен первый фильм о «Звездных войнах»?
XLnet: 1977
gpt-2: Star Wars: Episode IV A New Hope.

Вышеупомянутые результаты были получены путем предварения вопросов из других примеров вопросов и ответов, трюк, впервые использованный в статье GPT-2. Примечание. Лучше использовать поиск по лучу для декодирования ответов, который здесь не используется, поэтому результаты могут отличаться.

Выводы

Изобретение XLNet - это новая веха в сообществе НЛП. Он показал впечатляющие результаты в таких задачах, как извлечение ответов на вопросы (SQUAD), классификация настроений, логический вывод на естественном языке и так далее. Он извлекает выгоду из глубокого двунаправленного представления, которое он получает за счет моделирования языка перестановок и эффективного обучения с использованием нового двухпотокового внимания.

Его преимущество, к сожалению, не очевидно в задачах генерации языков, где GPT-2 немного превосходит его. Однако для окончательного утверждения этого потребуются надлежащее научное сравнение и результаты по задачам LM.

Будет интересно посмотреть, как LM перестановки используется для улучшения процесса генерации текста, но до тех пор GPT-2 остается наиболее точной моделью генерации текста.

XLNet говорит. Сравнение с GPT-2

Введение в XLNet

Особенности обучения XLNet

Сравнение с GPT-2

Выводы

Вопросы по теме