Трансформатор "Performer" от Google, Cambridge, DeepMind и Института Алана Тьюринга сокращает расходы на вычисления

Неслучайно архитектура нейронной сети Transformer набирает популярность во многих областях исследований машинного обучения. Трансформеры, наиболее известные своими задачами обработки естественного языка (NLP), не только позволили языковой модели OpenAI GPT-3 с 175 миллиардами параметров для обеспечения производительности SOTA, мощная и многофункциональная архитектура также помогла боту DeepMind AlphaStar победить профессиональных игроков в StarCraft. . Исследователи предложили способ сделать Transformers более эффективными, масштабируемыми и доступными с точки зрения вычислений.

В то время как предыдущие подходы к обучению, такие как RNN, страдали от исчезающих проблем с градиентом, изменяющий правила игры механизм самовнимания Transformers устранил такие проблемы. Как объясняется в статье, посвященной преобразователям - Внимание - все, что вам нужно, новая архитектура основана на обучаемом механизме внимания, который определяет сложные зависимости между элементами входной последовательности.

Однако преобразователи масштабируются квадратично, когда количество токенов во входной последовательности увеличивается, что делает их использование чрезмерно дорогим для большого количества токенов. Даже при умеренном вводе токенов многим исследователям может быть трудно удовлетворить ненасытный аппетит Трансформеров к вычислительным ресурсам.

Команда из Google, Кембриджского университета, DeepMind и Института Алана Тьюринга предложила новый тип трансформатора, получивший название Performer, на основе F Ast A ttention V ia положительные ортогональные R особенности (FAVOR +). механизм. Команда разработала Performer так, чтобы он был «способен на доказуемо точную и практическую оценку регулярного (softmax) полного рангового внимания, но только линейного пространства и своевременной сложности, не полагаясь на какие-либо априорные факторы, такие как разреженность или низкоранговость».

Softmax был узким местом, обременяющим внимание вычислений Transformers. Преобразователи обычно используют изученное линейное преобразование и функцию softmax для преобразования выходных данных декодера в предсказанные вероятности следующего токена. Предлагаемый метод вместо этого оценивает softmax и гауссовы ядра с положительными ортогональными случайными признаками для надежной и несмещенной оценки регулярного softmax внимания в механизме FAVOR +. Исследование подтверждает, что использование положительных характеристик может эффективно обучать линейные трансформаторы на основе softmax.

Используя подробные математические теоремы, документ демонстрирует, что вместо того, чтобы полагаться исключительно на вычислительные ресурсы для повышения производительности, также можно разработать улучшенные и эффективные архитектуры трансформаторов, которые имеют значительно более низкое энергопотребление. Кроме того, поскольку исполнители используют те же гиперпараметры тренировки, что и трансформеры, механизм FAVOR + может работать как простая добавка без особой настройки.

Команда протестировала Performers для решения широкого круга задач, от прогнозирования пикселей до моделирования последовательности белков. В своей экспериментальной установке исполнитель только заменил обычный компонент внимания Трансформера на механизм FAVOR +. При сложной задаче обучения 36-слойной модели с использованием белковых последовательностей модель на основе Performer (Performer-RELU) достигла лучших результатов, чем базовые модели Transformer Reformer и Linformer, которые показали значительное снижение точности. В стандартном тесте ImageNet64 Performer с шестью слоями соответствовал точности Reformer с 12 слоями. После оптимизации Performer был вдвое быстрее, чем Reformer.

Поскольку масштабируемые архитектуры Transformer с поддержкой Performer могут обрабатывать гораздо более длинные последовательности без ограничений на структуру механизма внимания, оставаясь при этом точными и надежными, считается, что они могут привести к прорыву в биоинформатике, где такие технологии, как языковое моделирование белков, уже продемонстрировали большой потенциал.

Статья Переосмысление внимания с исполнителями находится на arXiv.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также ввели базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Трансформатор "Performer" от Google, Cambridge, DeepMind и Института Алана Тьюринга сокращает расходы на вычисления

Вопросы по теме