И освежение информации о деривативах

Чтобы лучше понять, что происходит под градиентным спуском, мне было полезно действительно понять, что такое производная функции и как ее вычислить.

Итак, мы знаем, что производная — это скорость изменения функции в определенной точке. По сути, это наклон функции, рассчитанный с двумя точками, очень, очень близкими друг к другу.

Вот этап расчета:

возьмем уравнение y = f(x).
Когда xувеличиваетсянаx, y увеличивается наy:

Если вычесть обе формулы:

И упростим уравнение результата:

Разделите на △x, чтобы получить скорость изменения:

И уменьшите △xочень близко кнулю и переименуйте его в dx:

= f ’(x)

Полезно знать некоторые правила дифференцирования, например, производную от константы, от x, степенное правило и, конечно же, цепное правило.

Grad — это то, что позволяет нам сочетать исчисление и линейную алгебру, сохраняя градиенты функции с несколькими переменными (например, f(x,y) = x² y) в векторе.

Вот определение градиента из Википедии:

Градиент скалярной функции (f(x1, x2,…,xn)) обозначается ▽f, где ▽ (символ набла) обозначает вектор дифференциальный оператор, del. Обозначение градиентаfтакже обычно используется для обозначения градиента. Градиентfопределяется как уникальное векторное поле, скалярное произведение которого с любым векторомvв каждой точкеxявляется производной по направлению от fвдольv. То есть

Если мы «расставим точки» по нашему вектору градиента другим вектором, мы получим:

Таким образом, скалярное произведение градиента f и вектора r позволяет получить направленный градиент. Например :

Чтобы найти локальный минимум функции с помощьюградиентного спуска, необходимо выполнить шаги, пропорциональные отрицательному значению градиента функции в текущей точке. Если же вместо этого предпринимать шаги, пропорциональные положительному значению градиента, то достигается локальный максимум этой функции.

Если мы уже кратко рассмотрели, что такое градиентный спуск и почему мы используем его для минимизации функции (например, нашей функции стоимости), то описание градиентного спуска в Википедии теперь довольно легко понять.