Вы можете найти день 1 моего дневника машинного обучения здесь и день 3 здесь.

День 2! Небольшой перерыв на этой неделе, потому что в пятницу у меня был экзамен по назначению лекарств, но я рад, что теперь я официально свободен от экзамена, по крайней мере, на какое-то время :D

Сегодня я узнал о градиентном спуске.

Градиентный спуск

Алгоритм градиентного спуска используется для определения параметров в нашей функции гипотезы, но его также можно применять к более общим алгоритмам. Повторяется до сходимости.

Интуиция, стоящая за этим, заключается в том, что для данной функции стоимости мы можем построить график диапазона параметров нашей функции гипотезы и стоимости, полученной в результате определенного набора параметров. Градиентный спуск рассматривает, в каком направлении нужно сделать небольшой шаг вниз, чтобы в конечном итоге пойти «под гору», откуда вы продолжаете идти, пока не сойдетесь к локальному минимуму.

Способ, которым мы идем «вниз», заключается в том, что мы берем производную нашей функции стоимости и спускаемся в направлении наибольшей касательной. Размер каждого шага определяется α, скоростью обучения. Важно иметь в виду, что, начав с разных частей графика, вы окажетесь в разных местах, как вы можете видеть на рисунке ниже. Это приводит к локальному минимуму, который не всегда является глобальным минимумом нашей функции стоимости.

Теперь я объясню скорость обучения и производную более подробно, давайте рассмотрим, что наша функция стоимости имеет один параметр, J (θ1). Производная дает нам касательную линию к функции, обновление θ1 может быть положительным или отрицательным в зависимости от направления наклона.

Для скорости обучения α нам нужно учитывать ее размер. Если он слишком мал, градиентный спуск может быть слишком медленным.

Если он слишком велик, он может выйти за пределы минимума и в конечном итоге не сойтись, он может даже расходиться (это было бы плохо!).

Даже при фиксированной скорости обучения, когда мы приближаемся к локальному минимуму, градиентный спуск автоматически будет делать меньшие шаги, поэтому нет необходимости уменьшать α с течением времени. Интуиция, стоящая за этим, заключается в том, что производная J(θ1) приближается к 0, когда мы доходим до основания нашей выпуклой функции, в минимуме производная всегда будет равна 0.

На этом пока все, до завтра!