Итак, у нас есть функция гипотезы, и у нас есть способ измерить, насколько хорошо она согласуется с данными. Теперь нам нужно оценить параметры в функции гипотезы. Вот тут-то и приходит на помощь градиентный спуск

Представьте, что мы строим график нашей функции гипотезы на основе ее полей θ 0 и θ 1. Мы поместили θ 0 на ось x и θ 1 на ось y, а функция стоимости - на вертикальную ось z. Точки на нашем графике будут результатом функции стоимости, использующей нашу гипотезу с этими конкретными тета-параметрами. На графике ниже изображена такая установка.

Мы будем знать, что добились успеха, когда наша функция стоимости находится в самом низу ям на нашем графике, то есть когда ее значение является минимальным. Красные стрелки показывают минимальные точки на графике.

Мы делаем это, беря производную (касательную к функции) нашей функции затрат. Наклон касательной - это производная в этой точке, и она даст нам направление движения. Мы делаем шаги вниз по функции стоимости в направлении наиболее крутого спуска. Размер каждого шага определяется параметром α, который называется скоростью обучения.

Например, расстояние между каждой «звездой» на графике выше представляет собой шаг, определяемый нашим параметром α.

Меньшее α приведет к меньшему шагу, а большее α приведет к большему шагу.

Направление, в котором делается шаг, определяется частной производной от J (θ 0, θ 1) .

В зависимости от того, где начать на графике, можно закончить в разных точках. На изображении выше показаны две разные отправные точки, которые попадают в два разных места.

Читать далее - Интуиция градиентного спуска