GPT: чем больше, тем лучше?

Недавно OpenAI с большой помпой объявила о выпуске своей последней языковой модели на основе трансформеров, GPT-3 (см. ссылку 1). С момента публикации нейронной архитектуры преобразователя для крупномасштабного обучения языковых моделей (см. ссылку 2) было отмечено, что производительность таких моделей в отношении их основной задачи, а также различных эталонных задач обработки естественного языка (NLP), таких как как ответ на вопрос (SQuAD) (см. ссылку 3), как правило, масштабируется с размером модели.

Так началась гонка за все более крупными моделями (обычно определяемыми количественно по общему количеству параметров обучения), когда команда Google в какой-то момент лидировала со своей моделью BERT (см. ссылку 4) в 2018 году с 340 миллионами параметров, но была свергнута с престола OpenAI. слишком опасен для выпуска' GPT-2 (см. ссылку 5) с 1,5 миллиардами параметров. Затем команда Microsoft вступила в бой, чтобы занять первое место со своим колоссальным 17-миллиардным параметром Turing-NLG (см. ссылку 6), только для того, чтобы OpenAI вернул себе корону со своим кричащим 175-миллиардным параметром GTP-3.

Распознавание именованных объектов (NER)

NER — распространенная, но важная задача в НЛП, одним из вариантов ее использования является редактирование имен людей и компаний вместе с адресами в документах. Такие задачи обычно выполняются с использованием вероятностной последовательности для моделей последовательности.

В двух словах, такая модель принимает последовательность (в данном случае предложение) в качестве входных данных, где каждая единица последовательности (или токен) заранее определенным образом соответствует словам предложения. Затем он создает соответствующую последовательность в качестве вывода, в которой каждый токен теперь помечен своим наиболее вероятным типом сущности.

Одной из типичных архитектур нейронной сети, которая должна обеспечить адекватное решение для NER, будет рекуррентная нейронная сеть (RNN) (см. ссылку 7), посредством которой рекуррентный блок (A) принимает токен (x), передает некоторую информацию следующему блоку и создает output (h), который присваивает классификацию своему входу.

Таким образом, каждый блок получает некоторую информацию о предыдущих токенах из предыдущих блоков, с помощью которой можно определить вывод своего собственного ввода, поэтому контекст слова в предложении будет играть роль в определении его класса сущности.

Чтобы представить размер GTP-3 в перспективе, мы успешно реализовали двунаправленную модель последовательности RNN + условное случайное поле (CRF) (см. Ref8) для NER с размером 3 миллионов параметров. При таком скромном размере он уже может достаточно быстро делать выводы даже без поддержки графического процессора, в то время как GPT-3 требует нескольких графических процессоров для вывода, что затем приводит к гораздо более высоким эксплуатационным расходам, поскольку виртуальные машины, требующие большого количества вычислений графического процессора и оперативной памяти, будут потреблять большие объемы. энергии (вспомните майнинг биткойнов, на долю которого приходится 0,2% мирового потребления электроэнергии).

Такая модель машинного обучения является одним из уровней нашей многогранной архитектуры защиты данных, которую MARTINI использует для обеспечения конфиденциальности данных наших клиентов. Он может автоматически редактировать имена, адреса и любую другую конфиденциальную информацию в документах по транзакциям.

Вот результат нашей модели bi-RNN-CRF:

Кроме того, адаптация существующей модели к более новым источникам данных требует переобучения модели, передачи обучения или даже активного обучения (где обучаемые параметры часто обновляются после исправления человеком) было бы непомерно дорого и мучительно медленно для таких гигантских моделей, как GPT. -3.

К настоящему времени должно стать более очевидным, что усовершенствования моделей гигантских трансформеров за счет резкого увеличения размеров на порядки величины достигнут точки убывающей отдачи, по крайней мере, в отношении определенных задач НЛП.

Выводы

При этом мы по-прежнему стремимся экспериментировать с языковыми моделями на основе трансформеров и в настоящее время находимся в списке ожидания для OpenAI GPT-3 API. Такие модели, хотя и гигантские по размеру, могут быть разобраны для использования в более мелких задачах НЛП. Например, встраивающие слои могут быть подключены к более мелким моделям и только благодаря тому факту, что преобразователь уже обучен на чрезвычайно большом корпусе, таком как обычное сканирование (см. ссылку 9), привести к значительным улучшениям.

Чем мы занимаемся в МАРТИНИ

В MARTINI мы используем самые современные технологии, чтобы приносить пользу нашим клиентам. Это позволяет развернуть суперюриста для структурирования всех точек данных в инвестиционных соглашениях, чтобы вы могли получить к ним доступ за секунды, а не часы.

Мы ориентированы на клиента, а не на технологии. Предоставление результатов нашим клиентам – это самое главное.

использованная литература

  1. OpenAI «Языковые модели — это немногие ученики», 2020 г.
  2. Васвани, Шазир «Внимание — это все, что вам нужно». НИПС 2017, 5998–6008
  3. https://rajpurkar.github.io/SQuAD-explorer/
  4. Девлин, Чанг «BERT: предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Архив 1810.04805, 2018
  5. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  6. https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
  7. Хохрайтер, Шмидхубер «Долгая кратковременная память». Нейронные вычисления, 9 (8), стр. 1735–1780, 1997.
  8. Лафферти, МакКаллум, Перейра «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности». Материалы 18-й Международной конференции по машинному обучению. 282–289, 2001.
  9. https://commoncrawl.org/

Том Ву

Физик, ставший специалистом по данным. Том — доктор наук с десятилетним опытом теоретических и прикладных исследований. Ранее был научным сотрудником Мюнхенского университета и Агентства по науке, технологиям и исследованиям Сингапура.