3-й тезис посвящен тренировке Rest-50 с использованием очень больших мини-пакетов SGD.
Обзор
Внедрите методы для поддержания точности при чрезвычайно большом размере мини-пакета. В эксперименте они использовали такие методы, как
- Разминка RMSprop
- Пакетная нормализация без скользящего среднего
- График медленного старта обучения
Условия следующие
Ссылка на сайт
Авторы)
Такуя Акиба, Сюдзи Судзуки, Кейсуке Фукуда
Предпочтительные сети
Изданный год / журнал (ы)
12 нояб. 2017 г. / arXiv
В чем отличие от предыдущего исследования?
Используйте очень большой размер мини-пакета и применяйте некоторые методы, такие как прогрев RMSprop, нормализация пакета без скользящего среднего и график скорости обучения с медленным запуском.
В чем польза этого исследования?
Продемонстрируйте, что высокопараллельное обучение возможно с большим размером мини-пакета без потери точности на тщательно разработанных программных и аппаратных системах.
Что такое экспериментальный метод?
то же самое с обзором
Любые обсуждения?
- В обычной ситуации, почему чем больше размер партии, тем ниже точность?
- Что означает «обучающая итерация»?
Какие тезисы я должен прочитать в следующий раз?
- Состязательное изучение функций