Чрезвычайно большой мини-пакет SGD: обучение ResNet-50 на ImageNet за 15 минут 3/100

3-й тезис посвящен тренировке Rest-50 с использованием очень больших мини-пакетов SGD.

Обзор

Внедрите методы для поддержания точности при чрезвычайно большом размере мини-пакета. В эксперименте они использовали такие методы, как

Разминка RMSprop
Пакетная нормализация без скользящего среднего
График медленного старта обучения

Условия следующие

Ссылка на сайт

[1711.04325] Чрезвычайно большой минипакет SGD: обучение ResNet-50 в ImageNet за 15 минут
Аннотация: мы демонстрируем, что обучение ResNet-50 в ImageNet для 90 эпох может быть достигнуто за 15 минут с 1024…arxiv.org

Авторы)

Такуя Акиба, Сюдзи Судзуки, Кейсуке Фукуда

Предпочтительные сети

Изданный год / журнал (ы)

12 нояб. 2017 г. / arXiv

В чем отличие от предыдущего исследования?

Используйте очень большой размер мини-пакета и применяйте некоторые методы, такие как прогрев RMSprop, нормализация пакета без скользящего среднего и график скорости обучения с медленным запуском.

В чем польза этого исследования?

Продемонстрируйте, что высокопараллельное обучение возможно с большим размером мини-пакета без потери точности на тщательно разработанных программных и аппаратных системах.

Что такое экспериментальный метод?

то же самое с обзором

Любые обсуждения?

В обычной ситуации, почему чем больше размер партии, тем ниже точность?
Что означает «обучающая итерация»?

Какие тезисы я должен прочитать в следующий раз?

Состязательное изучение функций