Введение и обзор

В этой статье представлена ​​нейронная сеть, которая представляет собой просто многослойный перцептрон с прямой связью (MLP), что означает отсутствие свертки, механизма внимания, лямбда-слоев и прочего. Это просто умножение матриц, нелинейности, нормализация и пропуск соединений (адаптировано из ResNets). Этот документ похож на абстракции, разработанные в недавнем документе SOTA, известном как Трансформаторы видения. Я разработал блог, в котором подробно объясняется Vision Transformers, вы можете проверить это здесь. 😌

Архитектура микшера MLP

Авторы предложили архитектуру классификации. Как и в Vision Transformers, мы разделяем входное изображение на небольшие мини-участки (желательно размером 16✕16). Размер изображения должен быть кратен размеру патча. Теперь мы просто работаем с этими мини-патчами по мере распространения по сети, в отличие от сверточной нейронной сети, где мы как бы уменьшаем разрешение, но увеличиваем канал, создавая карты характеристик, здесь у нас будет один слой за другим, все одинаково. size и stack stack stack до конца. Так что это очень похоже на трансформатор, конечно, разница между ним и трансформатором заключается в том, как выглядят отдельные слои. Итак, как и в преобразователе, сначала каждый патч подается на полностью подключенный уровень, чтобы привести его в скрытое представление, также известное как скрытые вложения. Каждый фрагмент изображения соответствует одному вектору. Каждый патч проецируется в скрытое пространство с использованием одной и той же функции.

Давайте попробуем понять, что такое слой микшера, и вот суть этой архитектуры. Каждый патч, подаваемый в архитектуру MLP, разворачивается в вектор, каждый из этих векторов затем накладывается друг на друга и может быть интерпретирован как таблица. Каждая строка в этой таблице представляет собой вектор с 512 каналами. Существует два типа слоев микшера MLP: MLP с микшированием токенов и MLP с микшированием каналов.

Слой микшера - объяснение

При микшировании токенов мы делаем следующее: мы транспонируем таблицу таким образом, чтобы каждая строка имела один и тот же канал из всех патчей. Итак, первая строка означает канал 1 для всех участков изображения, и мы должны кормить каждую строку одним и тем же полностью подключенным слоем (простой слой MLP). Фактически, вы можете видеть, что все веса в полностью связанных слоях являются общими весами, это представляет собой распределение веса по одному и тому же каналу для разных патчей. MLP с микшированием токенов позволяют осуществлять связь между различными пространственными местоположениями (токенами); они работают с каждым каналом независимо и принимают отдельные столбцы таблицы в качестве входных данных. Это помогает нам производить вычисления на основе функции за функцией (512 каналов - это не что иное, как карты функций). Архитектура использует одноканальные свертки по глубине для микширования токенов. Это также известно как операции с несколькими местоположениями.

При микшировании каналов, поскольку веса являются общими, на метауровне это означает, что теперь мы можем снова сделать обратный трюк и перевернуть таблицу обратно в патчи, а затем выполнить те же общие вычисления для всех патчей. MLP с микшированием каналов позволяют осуществлять связь между разными каналами; они работают с каждым токеном независимо и принимают отдельные строки таблицы в качестве входных данных. В архитектуре используется свертка 1: 1 для микширования каналов. Это также известно как операция для каждого местоположения. Эти два типа слоев чередуются, чтобы обеспечить взаимодействие обоих входных размеров.

В конечном итоге, каждый уровень микшера имеет две весовые матрицы, одна матрица - это то место, где мы передаем вперед все каналы по отдельности, но одинаковым образом. Вторая матрица - это то, где один вперед распространяет все патчи по отдельности, но одинаковым образом.

Архитектура микшера полностью основана на многослойных перцептронах (MLP), которые многократно применяются либо в пространственных местоположениях, либо в каналах функций. Архитектура микшера полагается только на базовые процедуры умножения матриц, изменения структуры данных (изменение формы и транспозиции) и скалярные нелинейности.

Технические характеристики архитектур микшеров

Если вы видели бумагу-трансформер или большую копировальную бумагу, все это очень похоже с точки зрения архитектуры. Что они делают, так это создают кучу моделей разного размера с разным разрешением патчей. Таким образом, разрешение - это всегда число после косой черты (/).

По сравнению с Vision Transformer, из-за механизма внимания, у них есть квадратичные требования к вычислительной памяти, поскольку они увеличивают длину последовательности (т. Е. Снижают разрешение), в конечном итоге количество участков в изображении увеличивается, и, следовательно, они страдают квадратично. , тогда как Mixer страдает только линейно.

Эффекты масштаба

Давайте проанализируем это на одной задаче, упомянутой в статье. Упомянуто много задач. Мы рассмотрим линейную 5-кадровую классификацию ImageNet.

Давайте посмотрим на точность Top-1 для 5-кратной линейной классификации ImageNet. Вот их определение того, что такое 5-кратный классификатор: «Мы сообщаем о малой точности, полученной путем решения L2-регуляризованной задачи линейной регрессии между замороженными заученными представлениями изображений и метками. Вот как это работает: вы обучаете линейный классификатор на замороженном представлении того, что дает вам модель, и оцениваете его с максимальной точностью. Это очень специфическая задача. Мы ясно видим, что в этом обрамлении эта модель масштабируется намного лучше, чем другие модели. Таким образом, BiT-R152 хорош для небольшого набора данных, но по мере увеличения размера обучения он выходит на плато и не улучшается намного больше. Однако модель Mixer действительно хорошо масштабируется.

Вывод

Эта модель намного выигрывает от масштабирования, это более простая архитектура, она имеет более высокую пропускную способность (количество изображений в секунду на ядро) и более эффективна в вычислительном отношении. Этот документ не очень сложен, и его простая архитектура является преимуществом. Компромисс между точностью и вычислительными возможностями справедлив. С точки зрения исследования, возникает множество вопросов об индуктивных искажениях, о том, как ведет себя масштаб и можно ли заставить все работать только с SDG и множеством TPU. 😶‍🌫️

Если вам понравилась эта статья и вы получили важные знания, подумайте купите мне кофе ☕️ нажав здесь. 🤤

использованная литература

  1. MLP-Mixer: полностью основанная на MLP архитектура для Vision.

Если вам понравился этот пост, не забудьте аплодировать 👏. 💬 Подключиться? Давайте поговорим о социальных сетях: http://myurls.co/nakshatrasinghh.