3-й тезис посвящен тренировке Rest-50 с использованием очень больших мини-пакетов SGD.

Обзор

Внедрите методы для поддержания точности при чрезвычайно большом размере мини-пакета. В эксперименте они использовали такие методы, как

  • Разминка RMSprop
  • Пакетная нормализация без скользящего среднего
  • График медленного старта обучения

Условия следующие

Ссылка на сайт



Авторы)

Такуя Акиба, Сюдзи Судзуки, Кейсуке Фукуда

Предпочтительные сети

Изданный год / журнал (ы)

12 нояб. 2017 г. / arXiv

В чем отличие от предыдущего исследования?

Используйте очень большой размер мини-пакета и применяйте некоторые методы, такие как прогрев RMSprop, нормализация пакета без скользящего среднего и график скорости обучения с медленным запуском.

В чем польза этого исследования?

Продемонстрируйте, что высокопараллельное обучение возможно с большим размером мини-пакета без потери точности на тщательно разработанных программных и аппаратных системах.

Что такое экспериментальный метод?

то же самое с обзором

Любые обсуждения?

  • В обычной ситуации, почему чем больше размер партии, тем ниже точность?
  • Что означает «обучающая итерация»?

Какие тезисы я должен прочитать в следующий раз?

  • Состязательное изучение функций