Оптимизатор просмотра вперед: k шагов вперед, 1 шаг назад

СОБЫТИЯ РАЗГОВОРЫ

Оптимизатор просмотра вперед: k шагов вперед, 1 шаг назад

Майкл Чжан | TMLS2019

О спикере

Майкл Чжан - аспирант Университета Торонто и Института вектора, которым руководит Джимми Ба. Его текущие исследования сосредоточены на оптимизации и глубоком обучении. Ранее он работал в Калифорнийском университете в Беркли, где проводил исследования в области обучения с подкреплением и робототехники в группе Питера Аббеля.

О разговоре

Подавляющее большинство успешных глубоких нейронных сетей обучаются с использованием вариантов алгоритмов стохастического градиентного спуска (SGD). Недавние попытки улучшить SGD можно в общих чертах разделить на два подхода: (1) схемы с адаптивной скоростью обучения, такие как AdaGrad и Adam, и (2) ускоренные схемы, такие как тяжелый мяч и импульс Нестерова. В этой статье мы предлагаем новый алгоритм оптимизации Lookahead, который ортогонален этим предыдущим подходам и итеративно обновляет два набора весов. Интуитивно алгоритм выбирает направление поиска, просматривая последовательность «быстрых весов», сгенерированную другим оптимизатором. Я расскажу, как можно анализировать алгоритмы нейронной сети, и покажу, что Lookahead улучшает стабильность обучения и снижает дисперсию его внутреннего оптимизатора с незначительными затратами на вычисления и память. Затем я представлю эмпирические результаты, демонстрирующие, что Lookahead может значительно улучшить производительность SGD и Adam, даже с их настройками гиперпараметров по умолчанию в ImageNet, CIFAR-10/100, нейронном машинном переводе и Penn Treebank.

Оптимизатор просмотра вперед: k шагов вперед, 1 шаг назад

СОБЫТИЯ РАЗГОВОРЫ