Линейная регрессия: функция стоимости

В каждом алгоритме машинного обучения наша главная цель — свести к минимуму ошибку (разницу) между фактическими и прогнозируемыми значениями, которая определяется функцией стоимости. Для алгоритма может быть определено несколько функций стоимости, но выбор неправильной функции стоимости может дать нам ненадежные результаты.

Я буду использовать концепцию производных для выбора функции стоимости для линейной регрессии. Производные могут помочь нам найти оптимальную точку (точку перегиба), в которой функция находится либо в локальном/глобальном минимуме, либо в максимуме.

Производные

Дифференцирование уравнения первого порядка может помочь нам найти точку заражения, которая сообщает, где исходное уравнение меняет знак с +ive на -ive или наоборот.
Если мы вычисляем дифференциацию второго порядка и вычисляем значение с помощью точки заражения, то знаксообщит нам о глобальных/локальных максимумах или минимумах.
Производная второго порядка -ive расскажет нам о локальных/глобальных максимумах, а значение производной второго порядка +ive расскажет нам о локальных/глобальных минимумах.

Давайте разберемся с некоторыми основными функциями затрат и посмотрим, как мы можем использовать производные для выбора наиболее оптимальной функции затрат.

Средняя абсолютная ошибка

Он определяется как сумма абсолютной разницы между фактическими и прогнозируемыми значениями, деленная на количество записей.

Это одна из наиболее часто используемых метрик в регрессии для понимания производительности модели. Его значение лежит в диапазоне [0,inf). У него нет верхнего предела, поэтому по значению MAE нельзя сказать, работает модель лучше или нет. Чтобы использовать MAE в качестве показателя, вам нужно сравнить MAE нескольких моделей.
Он в основном используется, когда мы не хотим наказывать выбросы сильно.

Почему MAE не используется в качестве функции стоимости?

Мы должны выбрать функцию стоимости, которая дифференцируема в каждой точке, поскольку алгоритм градиентного спуска берет производную этой функции стоимости, а проблема с абсолютной функцией заключается в том, что она не дифференцируема в определенной точке, где Алгоритм градиентного спуска не работает.

Ось Y представляет собой функцию стоимости, как вы можете видеть, MAE не дифференцируема при 0, и алгоритм градиентного спуска не работает в этой точке, поэтому его нельзя использовать в качестве функции стоимости, но можно использовать в качестве метрики для определения производительности. модели.

sklearn.metrics.mean_absolute_error (y_true, y_predicted)

Среднеквадратическая ошибка

Он определяется как среднее квадратов разницы между фактическими и прогнозируемыми значениями.
Это один из наиболее часто используемых показателей наряду с MAE, но его нельзя напрямую сравнивать с MAE. Потому что MSE возводится в квадрат, а MAE – это единая метрика мощности. Значение MSE лежит в диапазоне [0,inf). Как и значение MAE, одно значение MSE не может определить производительность модели. Его необходимо сравнить с MSE других конкурирующих моделей, чтобы принять рациональное решение.
Значение MSE в основном используется, когда выбросы сильно наказываются, и выбросы будут способствовать гораздо большей ошибке в MSE, чем при сравнении. МАЭ.

Почему MSE используется как функция стоимости?

MSE как функция стоимости дифференцируема во всех точках, что дает неотрицательные ошибки. При использовании MSE в качестве функции стоимости алгоритм градиентного спуска не даст сбоев и даст нам надежные результаты.

Ось Y представляет функцию стоимости, и, как вы можете видеть, мы можем найти наклон в каждой точке этого графика, который представляет свойство дифференцируемости функции стоимости.

sklearn.metrics.mean_squared_error (y_true, y_predicted)

Если вам понравилось и вы оценили написание, 👏👏 хлопайте, подписывайтесь и делитесь.

Вы можете связаться со мной в Linkedin