Введение
Архитектуры-трансформеры становятся все более популярными в приложениях машинного обучения с момента их появления в 2017 году[1]. Модели на основе трансформеров стали самыми современными моделями в различных задачах компьютерного зрения и обработки естественного языка, таких как сегментация текста, генерация текста и классификация изображений [2][3][ 4][5][6]. Более того, они могут применяться и в других областях. Например, их можно использовать для маркировки струй [7] и авторегрессионной оценки плотности [8] в физике высоких энергий. Кроме того, обучение трансформатора можно распараллелить, что значительно ускоряет процесс обучения. Однако эти преимущества и достижения сопряжены с некоторыми недостатками. Одним из наиболее известных недостатков трансформаторов является то, что для их работы требуются огромные вычислительные ресурсы.
Преобразователи квантового гибридного зрения могут стать решением для сокращения времени обучения и вывода в будущем. Комбинируя квантовые схемы и классические методы вычислений, можно было бы использовать преимущества обоих методов для получения быстрой и выразительной архитектуры преобразователя зрения.
Цель
Создайте концептуальный гибридный преобразователь квантового зрения для обнаружения исходной частицы в моделируемых данных о струе.
Возможные подходы
Хотя опубликовано не так много статей о преобразователях квантового зрения, есть несколько статей о квантовых архитектурах, основанных на внутреннем внимании. В этом проекте я сосредоточусь на двух подходах из двух разных статей.
Первый подход
Первый подход основан на «Quantum Vision Transformers» Cherrat et al. В этой статье представлены три различных метода построения гибридной архитектуры преобразователя квантового зрения. Я сосредоточился только на первом методе, так как для двух других архитектур требовалось больше кубитов.
В этом методе расчет
осуществляется квантовой схемой. Операция, выполняемая квантовой схемой, эквивалентна
где W — ортогональная матрица. Эта матрица рассчитывается поэлементно. Сначала загружается i-я строка вектора X. После этого к кубитам применяется схема, соответствующая матрице W. После этого j-я строка матрицы X выгружается для вычисления
В статье предлагаются три разные схемы для выполнения умножения с разным количеством параметров и выразительностью. В моем проекте я включил только два из упомянутых методов.
В документе представлены три различных схемы загрузчика данных, одна из которых реализована в проекте, может быть визуализирована как (для трехмерного вектора),
и возможные схемы матричного умножения выражены ниже.
Второй подход
Второй подход основан на «Квантовых нейронных сетях с самостоятельным вниманием для классификации текста» Li et al. В этой статье представлен гибридный метод классификации предложений, основанный на внимании. В этом методе расчет
выполняется с помощью ключа и схемы запроса для построения двух векторов, а затем с помощью функции для построения матрицы. В документе также представлен метод использования квантовой схемы для замены вычислений матрицы значений, но сейчас я использую для этой цели классический слой. Следующая схема используется для загрузки данных.
После загрузки данных схема ключ/запрос может быть применена к каждой строке для построения векторов.
Затем для классификации изображения можно использовать следующее.
Текущие результаты
На данный момент ни один из обсуждаемых методов не применялся к целевым данным. Однако их можно применить к данным MNIST с измененным размером (14x14).
Эталон
В качестве эталона используется модифицированный преобразователь классического зрения. Вместо использования токена класса максимальное значение каждого столбца передается в одноуровневый персептрон для классификации изображения. Используется одномерное позиционное кодирование. Архитектура модели почти идентична «Изображение стоит 16x16 слов: преобразователи для распознавания изображений в масштабе», за исключением упомянутых модификаций.
Методология
Эталонная и гибридная модели используют одинаковое количество слоев и головок внимания. Обе модели обучаются оптимизатором Adam со скоростью обучения lr = 1e-3. Оба используют потерю перекрестной энтропии в качестве функции потерь. Обе модели были обучены 100 эпохам на 4000 изображениях и использовали 1000 изображений в качестве проверочного набора.
Результаты
Как видно, классическая модель имеет лучшие результаты по сравнению с гибридной моделью как по потерям, так и по точности. Однако эта разница невелика и видно, что классическая архитектура использует почти в два раза больше параметров, чем гибридная модель.
Используемый код
Этот проект полностью с открытым исходным кодом, и его можно найти по адресу https://github.com/EyupBunlu/QViT_HEP_ML4Sci.
Будущие цели
Будущие цели включают
- Используйте квантовую схему, описанную во второй статье, для матрицы значений (второй подход).
- Попробуйте разные модификации и сравните производительность.
- Потренируйтесь на данных струи и сравните с эталоном.
- Найдите более эффективный метод для матрицы значений (второй подход)
- Реализуйте остальные методы из первой статьи (если останется достаточно времени).