По материалам: https://arxiv.org/abs/2306.01705

Бумажная страница:https://shamim-hussain.github.io/ssa

Как стохастическое внимание улучшает обучение и обобщение моделей ИИ

Трансформеры стали любимой моделью архитектуры глубокого обучения с тех пор, как они впервые появились в обработке естественного языка. Будь то Google Translate или чат-боты с искусственным интеллектом, скорее всего, под капотом находится модель-трансформер.

Но, несмотря на свою универсальность, трансформаторы страдают одним серьезным узким местом — механизм самоконтроля масштабируется квадратично с размером входных данных. Это делает очень дорогим их применение к длинным текстам или изображениям с высоким разрешением.

Исследователи из Rensselaer Polytechnic Institute и IBM предлагают изящное решение этой проблемы в своей статье «Гипотеза информационных путей: трансформеры — это динамические самостоятельные ансамбли». Их метод, называемый Стохастически субдискретизированное собственное внимание (SSA), повышает как эффективность, так и возможности обобщения преобразователей.

Сияние редкого прожектора

Ключевым аспектом, благодаря которому трансформаторы работают хорошо, является внимание к себе. Это позволяет каждой части ввода сосредоточиться только на соответствующих частях контекста. Например, для обработки слова «яблоко» в предложении самовнимание позволяет модели связать его со словами, такими как «фрукты», а не с несвязанными словами, такими как «компьютер».

Но за эту гибкость приходится платить — при полном самоконтроле каждое слово должно быть связано с каждым другим словом. Для последовательности из N слов это квадратично масштабируется как N².

Исследователи предполагают, что в этих густых джунглях соединений существуют редко связанные подсети, называемые информационными путями. Эти пути охватывают разные, но интерпретируемые пути коммуникации.

Их ключевое понимание заключается в том, что вам не нужно, чтобы все пути были активны вместе. Достаточно просто выделить подмножество, чтобы эффективно обучать модель за итерацию.

Это аналогично целенаправленному обсуждению только с несколькими ключевыми коллегами перед принятием решения, вместо того, чтобы все присоединялись друг к другу.

Перемешайте вещи

Исходя из этого, они предлагают стохастическую субдискретизацию соединений во время обучения. Это делается путем случайного выбора доли от общего числа подключений и отбрасывания остальных.

Это не только сокращает объем вычислений в 4–8 раз, но также улучшает обобщение модели, действуя как сильный регуляризатор. Случайная перетасовка заставляет модель учиться принимать решения на основе разрозненных, но важных сигналов, вместо того, чтобы привязываться к шуму от плотных соединений.

Этот подход Стохастически субдискретизированного внутреннего внимания (SSA) позволяет эффективно обучать преобразователей на гораздо более длинных последовательностях и больших наборах данных, чем это было возможно раньше.

Но как обеспечить, чтобы прожектор по-прежнему улавливал наиболее важные сигналы? Именно здесь исследователи прибегают к хитрому приему — подвыборке с учетом местности.

Локальная предвзятость — думайте глобально, пробуйте локально

Вместо того, чтобы выбирать пути совершенно случайным образом, во время подвыборки вводится местное смещение. Ближайшие слова имеют приоритет, чтобы оставаться на связи, а не далекие слова.

Интуитивно это имеет смысл — слова, встречающиеся вместе, скорее всего, дают более контекстуальный сигнал, чем случайно удаленные друг от друга слова. Но помимо общих фраз, долгосрочные зависимости по-прежнему время от времени сэмплируются, предотвращая фрагментацию.

Это смещение локальности гарантирует, что критические пути выбираются с большей вероятностью, в то же время обеспечивая регуляризацию из разреженности. Исследователи демонстрируют высокую эмпирическую эффективность этого метода в различных задачах, таких как языковое моделирование, классификация изображений и анализ графов.

Возвращение блудных путей

Но во время тестирования мы хотим, чтобы все руки были наготове — так как же нам использовать полную модель, не теряя преимуществ разреженного обучения?

Решение оказывается небольшим шагом тонкой настройки. После обучения с разреженной подвыборкой полные плотные связи восстанавливаются для последних 10% эпох обучения.

Это все равно, что собрать весь совет вместе после того, как различные подгруппы уже достигли консенсуса. Тонкая настройка позволяет им согласовать все пути для оптимального вывода.

Точная настройка особенно полезна, когда во время обучения использовалась очень высокая разреженность. Это позволяет модели снова адаптироваться к использованию всех соединений, избегая резкого изменения распределения.

Это похоже на студента, который глубоко сосредотачивается на выбранных темах во время экзаменов, а затем согласовывает все знания после окончания семестра.

При умеренной разреженности тонкая настройка может даже не понадобиться, поскольку модель может динамически приспосабливаться к использованию всех путей. Но возможность точной настройки обеспечивает полезную гибкость.

Теперь, когда все пути восстановлены, можно делать прогнозы с использованием полной модели. Но мы можем сделать еще один шаг вперед…

Разделяй и властвуй — ансамбль путей

Удивительно, но даже после тонкой настройки мы можем выполнять разреженную стохастическую подвыборку во время тестирования!

Генерируя прогнозы из нескольких случайных подмножеств путей, а затем объединяя их, мы можем создать ансамбль подмоделей из самой обученной модели.

Этот ансамблевый подход делает прогнозы намного более надежными по сравнению с прямым использованием полной плотной модели.

Таким образом, SSA предоставляет элегантный метод для эффективного обучения и развертывания преобразователей, делая их более интеллектуальными и сильными. Понимание информационных путей и ансамбля открывает захватывающие возможности для будущих инноваций для масштабирования этих моделей.

Прожектор станет только ярче!