Как мы пришли к нашему текущему состоянию трансформаторной архитектуры, основанной на внимании, для задач НЛП

Обработка естественного языка (NLP), позволяющая компьютерам понимать человеческий язык, не является новой концепцией. Тем не менее, последнее десятилетие стало свидетелем беспрецедентного скачка в развитии технологий НЛП, большая часть которого стала возможной благодаря глубокому обучению. Технология НЛП развивается настолько быстро, что специалисты по обработке данных должны постоянно изучать новые методы машинного обучения и архитектуры моделей. К счастью, с момента развития современной архитектуры НЛП, моделей, основанных на внимании, прогресс в области НЛП, кажется, на мгновение замедлился. У специалистов по данным наконец-то есть время, чтобы наверстать упущенное!

Но как мы пришли к нынешнему состоянию в НЛП? Первое крупное достижение произошло в 2013, когда было проведено революционное исследование Word2Vec (подробно описанное в статье Миколова). Миколов и др. Осознали, что, обучая нейронные сети выполнению задачи НЛП, сеть была вынуждена узнавать сходство между словами. Эти векторные представления слов хранились на уровне встраивания нейронной сети, и их обнаружение добавило совершенно новое измерение к задачам НЛП. Благодаря Word2Vec у нас теперь есть более эффективный способ создания векторов слов. Нам больше не нужно полагаться на традиционное разреженное представление слов с одним горячим кодированием. Кроме того, использование встраивания слов требует меньше памяти, сокращает время вычислений и, как было показано, значительно улучшает производительность последующих моделей. За этим последовали и другие модели представления слов, такие как GloVe. Больше никаких горячих кодировок!

Благодаря достижениям в области глубокого обучения и увеличивающимся вычислительным возможностям в 2014 и 2015 годах стали популярны рекуррентные нейронные сети (RNN) и сети с долгосрочной краткосрочной памятью (LSTM), версия RNN. Андрей Сообщение в блоге Карпати, озаглавленное Неоправданная эффективность рекуррентных нейронных сетей, - это известное любовное письмо RNN, на которое часто ссылаются. RNN и LSTM позволяют обрабатывать данные текстовой последовательности. Порядок данных имеет значение для данных последовательности, и не было хорошего способа обрабатывать данные последовательности до RNN. LSTM улучшен по сравнению с RNN в том, что для длинных последовательностей сеть запоминает входные данные более ранних последовательностей. Это была серьезная проблема для RNN, также известная как проблема исчезающего градиента. LSTM запоминает, какая информация важна в последовательности, и предотвращает уменьшение веса ранних входных данных до нуля. Существует дополнительная версия RNN, называемая Gated Recurrent Unit (GRU). Он очень похож на LSTM, но отличается специальными воротами для хранения информации о длинной последовательности. RNN и LSTM были хлебом с маслом задач НЛП в течение нескольких лет - все использовали их. Но вскоре на смену им пришла еще лучшая архитектура: сети внимания!

Сети, основанные на внимании, стали популярными примерно в период 2015–2016. Сети внимания - это тип нейронной сети, которая позволяет сосредоточиться на определенном подмножестве входных данных: вы можете указать, на что вы хотите, чтобы сеть обращала внимание. Эти модели били рекорды производительности по многим задачам НЛП, таким как нейронный машинный перевод, языковое моделирование и ответы на вопросы. Сети внимания также более эффективны и требуют меньше вычислительных ресурсов. Это важное улучшение, так как часто требуется значительная вычислительная мощность в виде графического процессора (который не всегда доступен) для обучения RNN.

Особый тип сети, основанной на внимании, представленный в 2017, модель Transformer, особенно доминирует в современной архитектуре NLP. Трансформатор похож на RNN в том, что он обрабатывает данные последовательности, но данные не нужно вводить в модель в каком-либо конкретном порядке. Благодаря этому модель Transformer может обучаться быстрее и с гораздо большим объемом данных с помощью распараллеливания. Модель Transformer привела к нашему текущему состоянию в НЛП: эпохе BERT, ERNIE 2.0 и XLNet.

Двунаправленные представления кодировщиков из моделей трансформаторов (BERT) были представлены в 2018 исследователями Google. Версии BERT - одна из самых продвинутых доступных моделей НЛП. BERT, глубоко двунаправленная неконтролируемая модель, используется для предварительного обучения представлений слов для последующего использования в задаче НЛП. Двунаправленность имеет решающее значение в нейронных сетях, поскольку она позволяет информации перемещаться вперед и назад по мере обучения модели, что приводит к более высокой производительности модели.

Хотя концепция BERT похожа на Word2Vec и GloVe, векторы слов BERT зависят от контекста! В Word2Vec и GloVe слова с большим контекстным разнообразием (я чувствую синий, синий - мой любимый цвет) представлены одним вектором. Вы можете догадаться, что этот тип представления может привести к снижению производительности модели ниже по течению, поскольку значение слова во многом зависит от контекста. С BERT два контекста слова blue будут представлены разными векторами.

BERT был лишь верхушкой айсберга для архитектур, основанных на внимании. В 2019 исследователи из Карнеги-Меллона и Google создали XLNet. В документе утверждается, что XLNet превосходит BERT по 20 задачам, часто с большим отрывом. В отличие от других недавних достижений в НЛП, архитектура не отличается кардинально. Как и BERT, XLNet использует сеть, основанную на внимании. Летом 2019 китайская технологическая компания опубликовала статью о другой сети, основанной на внимании, ERNIE 2.0. В документе утверждается, что ERNIE 2.0 превосходит BERT и XLNet по 16 задачам, включая задачи на китайском языке. Как и BERT, ERNIE 2.0 и XLNet являются моделями предварительного обучения, в которых используются трансформаторные архитектуры и механизмы внимания. Хотя исходная модель BERT больше не является королем, версии BERT, такие как RoBERTa, остаются конкурентоспособными в области ведущих технологий НЛП.

В заключение, на данный момент не существует единой, в целом лучшей модели НЛП. Однако преобладающей архитектурой являются трансформаторные сети, основанные на внимании. Лучшие модели хорошо справляются с различными задачами, и у каждой есть свои уникальные преимущества и недостатки. Со всеми этими конкурирующими моделями может быть сложно определить, какая модель лучше всего подходит для вашей задачи. Один из моих новых любимых ресурсов - paperwithcode.com. На этом веб-сайте удобно систематизировать исследовательские работы в соответствии с конкретными задачами машинного обучения, что позволяет вам быть в курсе новейших моделей и архитектур.



Итак, у вас есть краткая история быстрого развития НЛП за последнее десятилетие. НЛП - это постоянно меняющаяся и развивающаяся область, определенно не для специалистов по данным, предпочитающих стабильность моделей. Но это часть удовольствия! Посмотрим, как долго продлится эпоха сетей, основанных на внимании.