Трансферное обучение было горячей темой для исследований с успешным переносом весов нейронной сети на аналогичную или подзадачу для достижения большей точности и сокращения времени. Мета-обучение теперь находит способы, изучая функцию потерь, вместо того, чтобы обобщать конкретное распределение данных. У нас есть эволюционные стратегии, пытающиеся выяснить архитектуру нейронной сети для заданных задач. В этом документе ( Learning Transferable Architectures for Scalable Image Recognition) рассматривается перенос архитектуры между похожими задачами.

Архитектура

NAS означает поиск нейронной архитектуры. В NASNet они используют метод вместо поиска нейронной архитектуры, они ограничили его поиском среди типов CNN. Сверточные слои имеют одинаковую структуру, но различаются по весу. Теперь поиск сводится к поиску клеточной структуры. Используются два типа ячеек свертки: обычная ячейка и ячейка сокращения. Ячейки сокращения имеют шаг в два, чтобы уменьшить высоту и ширину. Что отличается в сверточной сети, так это структура нормальной ячейки и ячейки сокращения. Они обнаруживаются в пространстве поиска с использованием контролируемой RNN. > Обычная эвристика состоит в том, чтобы удвоить число размеров фильтра во время шага 2. После выбора числа фильтров в начальном слое.

Контроллер РНН

В пространстве поиска каждая ячейка получает два скрытых состояния, которые являются либо выходами двух предыдущих слоев, либо входными изображениями. Контроллер RNN рекурсивно предсказывает остальную часть сети.
1. Первое скрытое состояние может выбрать состояние из двух предыдущих скрытых состояний.
2. Второе скрытое состояние также может делать то же самое, выбирая скрытое состояние из двух предыдущих скрытых состояний.

Существует набор операций, которые можно применить к тем ячейкам, выбранным из этого пула:
1. Идентичность 2. 1x3, затем свертка 3x1 3. 1x7, затем свертка 7x1 4. Расширенная свертка 3x3 5. Пул среднего значения 3x3 6. Максимальный пул 3x3 7. Максимальный пул 5x5
8. Максимальный пул 7x7 9. Свертка 1x1 10. Свертка 3x3 11. Свертка 3x3 с отделимой по глубине 12. Свертка с отделимой по глубине 5x5 14. Свертка с отделимой по глубине 7x7.

3. Выберите операцию из приведенных выше, чтобы применить ее к скрытому состоянию, выбранному на шаге 1.
4. Выберите операцию, чтобы применить ее к скрытому состоянию, выбранному на шаге 2
5. Есть два способа объединить шаг 3. и шаг 4
i. Поэлементное сложение между двумя скрытыми состояниями.
ii. Объединение скрытых состояний по параметру фильтра.

Предсказания упаковываются в блоки посредством конкатенации. Каждый блок имеет 5 шагов прогнозирования, сделанных 5 различными классификаторами softmax, соответствующими дискретному выбору элементов блока. Количество блоков установлено равным 5. Чтобы иметь прогнозы как для нормальной ячейки, так и для редукционной ячейки, мы допускаем прогнозирование блоков 2 * 5. Обучение с подкреплением используется в NAS для оптимизации RNN.

Преимущество

1. Он может формировать плотную (остаточную) связь в зависимости от обратной связи от выполнения задачи.
2. Путем изменения ячеек свертки и количества фильтров , можно создать другую версию сети.
3. Это дает хороший результат, несмотря на перенос с одной задачи на другую.
4. Расширенные RNN можно использовать для создания еще более плотных соединений.
5. Мы, люди, обладаем предварительными знаниями и хорошо справляемся с новой задачей, даже если это новая задача.
6. AutoML использует этот метод для определения требований к архитектуре для решения проблемы. Пример показывает, что AutoML смог найти мельчайшие различия в идентификации кишечника лапши и ресторана, откуда она была получена. .
7. На данный момент она превосходит архитектуру модели на человеческом уровне, а также основана на заданном ограничении, поскольку мы, люди, можем использовать ансамбль или другие методы пропуска соединения, чтобы превзойти эту модель, потому что наше мышление не ограничен.

Недостатки:

1. Требования к вычислениям для поиска нейронной архитектуры достаточно высоки.

Вывод из бумаги

Вместо того, чтобы искать новую нейронную архитектуру на глобальном уровне, лучшую архитектуру можно создать из небольших вариаций сетевой архитектуры. Они масштабировали архитектуру от обучения на наборе данных CIFAR10 до изображения. чистый набор данных. Так же показана возможность переноса на задачу обнаружения объектов. Мы можем изменить числовой тип искомой операции свертки или добавить больше прогнозов в RNN для дальнейшего улучшения модели. Теперь мы знаем, что пропущенные соединения из предыдущих слоев обеспечивают стабильность, а также информацию о прохождении, а классификация на разных уровнях дает лучшие результаты при обнаружении объектов.

Что этот NAS пытается выполнить при построении архитектуры нейронной сети?

В CNN обнаружение в некоторой степени зависит от размера рецептивного поля. RNN способны самостоятельно формировать пропущенные соединения в сети (расширенные RNN могут создавать более плотные конфигурации) для улучшения прогнозирования и обобщения сети.

Результаты

В наборе данных CIFAR10 модель NASNet-A достигла современного уровня техники. Он хорошо масштабируется для задачи Imagenet, а также дает современный результат для прогноза Top-1. Интересно то, что его можно достичь с меньшими параметрами, чем у моделей ручной сборки. Для достижения этого результата потребовалась меньшая операция умножения-сложения.

Он хорошо масштабируется для аналогичной задачи, такой как проблема пространственной локализации (проблема обнаружения объектов). При подключении к Faster RCNN в качестве базовой сети он выдал современный результат на Coco mini-val и тестовых данных с оценкой карты 43,2.
Он также хорошо работал с мобильной архитектурой, превосходя все предыдущие модели.

Куда мы отправимся отсюда

Мы увидим сети, способные выполнять многозадачные задачи и находить весовую инициализацию для задач, которые хорошо обобщаются, находить эффективную архитектуру и потреблять меньше вычислительной мощности.

Salesforce выпустила задачу Decathlon для НЛП и выпустила MQAN, сеть кодеров-декодеров, способную решать 10 задач НЛП в формате «вопрос-ответ». OpenAI выпустила программу метаобучения под названием Reptile, которая находит инициализацию веса для задачи. CVPR 2018 продемонстрировал таскономию, способ определения переноса весов обучения путем группировки 30 задач компьютерного зрения, чтобы найти корреляцию между весами и использовать их для оптимизации подзадачи.

У Paper есть интересные результаты и архитектуры, которые стоит проверитьИзучение переносимых архитектур для масштабируемого распознавания изображений

Надеюсь, что этот пост добавил ценности вашему времени. Спасибо, что прочитали.