Введение

Архитектуры-трансформеры становятся все более популярными в приложениях машинного обучения с момента их появления в 2017 году[1]. Модели на основе трансформеров стали самыми современными моделями в различных задачах компьютерного зрения и обработки естественного языка, таких как сегментация текста, генерация текста и классификация изображений [2][3][ 4][5][6]. Более того, они могут применяться и в других областях. Например, их можно использовать для маркировки струй [7] и авторегрессионной оценки плотности [8] в физике высоких энергий. Кроме того, обучение трансформатора можно распараллелить, что значительно ускоряет процесс обучения. Однако эти преимущества и достижения сопряжены с некоторыми недостатками. Одним из наиболее известных недостатков трансформаторов является то, что для их работы требуются огромные вычислительные ресурсы.

Преобразователи квантового гибридного зрения могут стать решением для сокращения времени обучения и вывода в будущем. Комбинируя квантовые схемы и классические методы вычислений, можно было бы использовать преимущества обоих методов для получения быстрой и выразительной архитектуры преобразователя зрения.

Цель

Создайте концептуальный гибридный преобразователь квантового зрения для обнаружения исходной частицы в моделируемых данных о струе.

Возможные подходы

Хотя опубликовано не так много статей о преобразователях квантового зрения, есть несколько статей о квантовых архитектурах, основанных на внутреннем внимании. В этом проекте я сосредоточусь на двух подходах из двух разных статей.

Первый подход

Первый подход основан на «Quantum Vision Transformers» Cherrat et al. В этой статье представлены три различных метода построения гибридной архитектуры преобразователя квантового зрения. Я сосредоточился только на первом методе, так как для двух других архитектур требовалось больше кубитов.

В этом методе расчет

осуществляется квантовой схемой. Операция, выполняемая квантовой схемой, эквивалентна

где W — ортогональная матрица. Эта матрица рассчитывается поэлементно. Сначала загружается i-я строка вектора X. После этого к кубитам применяется схема, соответствующая матрице W. После этого j-я строка матрицы X выгружается для вычисления

В статье предлагаются три разные схемы для выполнения умножения с разным количеством параметров и выразительностью. В моем проекте я включил только два из упомянутых методов.

В документе представлены три различных схемы загрузчика данных, одна из которых реализована в проекте, может быть визуализирована как (для трехмерного вектора),

и возможные схемы матричного умножения выражены ниже.

Второй подход

Второй подход основан на «Квантовых нейронных сетях с самостоятельным вниманием для классификации текста» Li et al. В этой статье представлен гибридный метод классификации предложений, основанный на внимании. В этом методе расчет

выполняется с помощью ключа и схемы запроса для построения двух векторов, а затем с помощью функции для построения матрицы. В документе также представлен метод использования квантовой схемы для замены вычислений матрицы значений, но сейчас я использую для этой цели классический слой. Следующая схема используется для загрузки данных.

После загрузки данных схема ключ/запрос может быть применена к каждой строке для построения векторов.

Затем для классификации изображения можно использовать следующее.

Текущие результаты

На данный момент ни один из обсуждаемых методов не применялся к целевым данным. Однако их можно применить к данным MNIST с измененным размером (14x14).

Эталон

В качестве эталона используется модифицированный преобразователь классического зрения. Вместо использования токена класса максимальное значение каждого столбца передается в одноуровневый персептрон для классификации изображения. Используется одномерное позиционное кодирование. Архитектура модели почти идентична «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе», за исключением упомянутых модификаций.

Методология

Эталонная и гибридная модели используют одинаковое количество слоев и головок внимания. Обе модели обучаются оптимизатором Adam со скоростью обучения lr = 1e-3. Оба используют потерю перекрестной энтропии в качестве функции потерь. Обе модели были обучены 100 эпохам на 4000 изображениях и использовали 1000 изображений в качестве проверочного набора.

Результаты

Как видно, классическая модель имеет лучшие результаты по сравнению с гибридной моделью как по потерям, так и по точности. Однако эта разница невелика и видно, что классическая архитектура использует почти в два раза больше параметров, чем гибридная модель.

Используемый код

Этот проект полностью с открытым исходным кодом, и его можно найти по адресу https://github.com/EyupBunlu/QViT_HEP_ML4Sci.

Будущие цели

Будущие цели включают

  • Используйте квантовую схему, описанную во второй статье, для матрицы значений (второй подход).
  • Попробуйте разные модификации и сравните производительность.
  • Потренируйтесь на данных струи и сравните с эталоном.
  • Найдите более эффективный метод для матрицы значений (второй подход)
  • Реализуйте остальные методы из первой статьи (если останется достаточно времени).