Публикации по теме 'attention'


Основное позиционное кодирование: часть II
Мы обновляемся до относительного положения, представляем двунаправленное относительное кодирование и обсуждаем плюсы и минусы того, чтобы модель научилась всему этому за вас. Это часть II из двух частей серии Мастер позиционного кодирования . Если вы хотите узнать больше об интуиции и основах позиционного кодирования, прочтите мою первую статью . В то время как в первой статье обсуждалось значение фиксированных синусоидальных абсолютных позиционных кодировок, в этой статье мы..

Введение уровня самовнимания в Transformer
Краткое изложение трансформатора Название 「Transformer」 в области обработки естественного языка (NLP) определено в статье, опубликованной Google под названием Внимание - это все, что вам нужно в середине 2017 года. Короче говоря, концепция Transformer заключается в замене рекурсивного или сверточного нейронного слоя на уровень самовнимания . С тех пор практически все работы, выполненные в области НЛП, переработаны Transformer. И неудивительно, что они превосходят предыдущие..

Трансформаторная архитектура: все, что вам нужно
В этом посте мы собираемся исследовать концепцию внимания и посмотреть, как оно поддерживает «Трансформаторную архитектуру», которая, таким образом, демонстрирует, почему «Внимание - это все, что вам нужно!» Введение: Всякий раз, когда возникают долгосрочные зависимости (проблемы обработки естественного языка), мы знаем, что RNN (даже с использованием таких хаков, как двунаправленные, многослойные шлюзы на основе памяти - LSTM / GRU) страдают от проблемы исчезающего градиента. Кроме..

Введение в RNN, перевод от последовательности к языку последовательности и внимание
Введение в RNN, перевод от последовательности к языку последовательности и внимание Цель этого поста - кратко представить RNN (рекуррентные нейронные сети), перевод последовательности в язык последовательности (seq2seq) и внимание. Я постараюсь сделать это как можно проще. Вам нужно только знать: "Линейная алгебра" "Нейронные сети" Если вы чувствуете себя плохо по темам, не стесняйтесь их просмотреть, прежде чем начать читать, нажав на ссылки выше. Я вспоминаю, что когда я..

Внимание: один из ключей к успеху предтренинга
Предварительное обучение, часть 2: механизм, который сообщает вашей модели, на что следует обратить внимание На работе в Yodo1 одна из задач нашей команды ИИ - классифицировать пользователей по разным группам. Недавно модель, которую мы использовали, показала лучшую производительность при внимании, чем без нее - этого достаточно, чтобы убедить меня, что это метод, который стоит попробовать и которым стоит поделиться с вами! Итак, сегодня мы поговорим о механизме внимания. Что..

Трансформатор Галеркина: однократный эксперимент на NeurIPS 2021
Мысли и теория Трансформатор Галеркина: однократный эксперимент на NeurIPS 2021 Путешествие любителя вычислительной математики по математической теории и приложениям механизма внимания. Пролог Недавно я написал свою первую статью о машинном обучении¹ как забавном, но сложном побочном проекте вместе с репозиторием с открытым исходным кодом, содержащим коды: https://github.com/scaomath/fourier-transformer . Будучи полным новичком и независимым исследователем в этой области, я..