Я делаю краткий обзор тем ML/AI, которые мне интересны.

Сегодняшние дудлы — это мои заметки из журнала Prof. Лекция Mohit Iyyer «Advanced Natural Language Processing (видео). В этой статье кратко рассматривается механизм преобразования собственного внимания, представленный в новаторской статье Google Внимание — это все, что вам нужно.

Обратите внимание, что это не исчерпывающий обзор документа, в нем для простоты опущены некоторые технические детали. Подробности смотрите в бумаге (или в этом замечательном блоге).

Автоматическое внимание
Ниже приведено упрощенное описание самоконтроля. q3 опережает все предыдущие вложения. Веса внимания используются для создания вектора значений z3.

Параллельное внимание
Каждую операцию внутреннего внимания можно представить в виде матричной операции с высокой степенью параллелизма.

Представляем внедрение позиций
Почему? В отличие от RNN, преобразователи не имеют представления о положении любого из токенов в заданной последовательности. Эта информация должна быть предоставлена ​​отдельно.

Многоголовое внимание
Другим важным нововведением стало многоголовое внимание, позволяющее проецировать векторы в разных пространствах независимо друг от друга.

Глубокая нейронная сеть трансформаторов
До сих пор мы описывали только один слой преобразователей. Чтобы добавить больше слоев, просто сложите их. Выход каждого слоя используется как вход для следующего слоя. На рисунке ниже показана глубокая сеть с одной головкой, но ту же концепцию можно распространить на глубокую сеть с несколькими головками.

И это все. На этом мы завершаем наш обзор самоконтроля в трансформерах. Спасибо за чтение!

Резюме

В этом посте я рассмотрел только механизм самоконтроля трансформаторов, как показано на изображении ниже.

Примечание. Масштабирование после умножения матрицы Query-Key важно, чтобы избежать больших весов. Это гарантирует, что нормализация весов softmax не приведет к их перемещению в области с низким градиентом.

Далее идут фактические блоки кодировщика и декодера Трансформеров, которые будут рассмотрены в другом посте.

Другие посты о рисовании ИИ:
Рисование ИИ: мужчина для программиста то же, что женщина для домохозяйки?
Рисунок ИИ: CrowS-Pairs Challenge