Продолжая последний пример потери веса, мы придерживаемся диетического питания и регулярных физических упражнений в течение 100 дней. Модель регрессии покажет, сколько фунтов мы теряем, исходя из количества потребленных фунтов еды и часов тренировок. Модель изучает лучший параметр еды и упражнений, учитывая функцию затрат. Настроив функцию стоимости, модель знает, насколько хорошо она работает, и корректирует ее с каждой точки обучения. Эта статья резюмируется на основе лекции Эндрю Н.Г. о функции затрат и градиентном спуске для учебных целей.

Как и человеческий мозг, модели учатся, изменяя поведение, чтобы избежать ошибок. Мы настроили функцию стоимости, чтобы минимизировать разрыв между прогнозируемым значением и наблюдаемым. Функция стоимости ниже показывает θo как точку пересечения y и θ1 как наклон линии регрессии. С помощью этих двух параметров мы можем определить любую предполагаемую линию в координатах x-y. Разрыв J (θo, θ1) вычисляется путем взятия половины среднего квадрата разности между каждым прогнозируемым значением и наблюдаемым y (i). Путем тестирования различных гипотетических линий мы берем hθ с наименьшим зазором, чтобы приблизиться ко всем реальным точкам данных.

Поняв процесс вычисления функции стоимости, мы можем отобразить функцию стоимости с помощью θo и θ1. Самая низкая точка на графике указывает лучший набор θo и θ1.

Или мы можем перенести график в 2 измерения, создав контурную фигуру, где центральная точка показывает глобальный минимум функции стоимости.

На основе контурной фигуры пытаемся найти глобальный минимум в центральной точке. На следующих рисунках показано, как вносятся корректировки, когда линейная линия поворачивается, шаг за шагом, с использованием всех обучающих точек в партии для оценки стоимости J (θo, θ1). .

Математический способ объяснить процесс поиска - это алгоритм градиентного спуска. Интуиция состоит в том, чтобы искать с уменьшающимся наклоном и обновлять текущее значение (θo, θ1), установленное каждой точкой. Кривая обучения, обозначенная как α, определяет, насколько большим должен быть каждый шаг поиска.

При приближении к локальному минимуму градиентный спуск автоматически будет делать меньшие шаги, даже если скорость обучения фиксирована.

Когда шаг поиска слишком мал или слишком велик, мы упустим оптимальное решение. Но при настройке гиперпараметра можно научиться находить наиболее подходящий вариант.