Использование максимальной вероятности, чтобы показать, почему мы минимизируем сумму квадратов остатков в линейной регрессии

Сводка

Пытаясь глубже понять математические концепции машинного обучения, я обнаружил, что довольно легко запутаться в уравнениях. Моя цель — продемонстрировать, как вы можете экспериментировать с графиками и базовой математикой, чтобы развить интуицию машинного обучения. В частности, я хотел бы показать на простом примере, почему мы минимизируем сумму квадратов остатков в линейной регрессии.

Предпосылки

В этой статье предполагается, что вы понимаете основы максимального правдоподобия, и вы получите дополнительные интуитивные представления об этой концепции, связанной с линейной регрессией. Если вам нужен учебник для начинающих, посмотрите это видео: StatQuest — Максимальное правдоподобие.

Начнем

В линейной регрессии мы используем входные данные для оценки коэффициентов, которые имеют наибольшую вероятность соответствия распределению Гаусса. Линейная регрессия принимает следующую форму с условиями ошибки (e) независимо и одинаково распределенными (iid) в соответствии с нормальным распределением (N) со средним значением 0 и дисперсией sigma².

Поскольку наши ошибки нормально распределены, функция плотности вероятности члена ошибки, как вы уже догадались, является функцией плотности вероятности нормального распределения:

Функция правдоподобия L(theta) — это совместная вероятность функции плотности вероятности члена ошибки f(e). Совместная вероятность просто означает, что мы умножаем каждое наблюдение вместе.

Обычно мы находим наши коэффициенты, максимизируя эту функцию (оценка максимального правдоподобия) путем взятия журналов и частных производных по каждому коэффициенту. Вместо того, чтобы заниматься всей этой математикой, давайте попробуем интуитивно понять, что происходит.

Во-первых, какое отношение имеет остаток к электронному термину?

На приведенной ниже диаграмме показан электронный термин в сравнении с остатками. Вот ссылка на график. Я призываю вас поиграть с числами на диаграмме, чтобы понять, что происходит.

Меньшие остатки приводят к более высокому е-члену — когда остаток равен нулю, е-член имеет наибольшее значение, равное 1. Теперь давайте подумаем о функции правдоподобия и о том, как мы можем ее максимизировать.

Предположим, что n=3, например. Тогда функция правдоподобия является произведением трех членов:

Попробуйте перемножить три числа электронных терминов, например 0,7 * 0,7 * 0,7, а затем попробуйте другие числа. Например:

0.7*0.7*0.7 = 0.343

0.7*0.6*0.6 = 0.252

0.4*0.6*0.4 = 0.096

Вы обнаружите, что чем больше электронные термины, тем больше конечный продукт.

Что мы обнаружили:

  1. Меньшие остатки приводят к большему электронному сроку
  2. Произведение более высоких электронных терминов приводит к более высокой вероятности

Таким образом, мы можем сделать вывод, что мы максимизируем функцию правдоподобия (произведение электронных терминов), минимизируя каждый остаток.

А как насчет минимизации суммы квадратов остатков?

Выражение «минимизация суммы квадратов остатков» происходит от типичного следующего шага в вычислении максимального правдоподобия — получения логарифма функции правдоподобия. Взятие журнала преобразует произведение в суммы.

Но давайте на секунду забудем обо всей этой математике и поэкспериментируем с некоторыми значениями. Вот остатки и электронные термины из нашего графика

Давайте посчитаем сумму квадратов остатков для двух предыдущих примеров.

Пример 1:

электронные термины: 0,7, 0,7, 0,7 | остатки: 0,61, 0,61, 0,61

произведение электронных терминов: 0,7 * 0,7 * 0,7 = 0,343

сумма квадратов остатков: 0,6² + 0,6² + 0,6² = 1,1163

Пример 2:

электронные термины: 0,4, 0,6, 0,4 | остатки: 0,85, 0,70, 0,85

произведение электронных терминов: 0,4 * 0,6 * 0,4 = 0,096

сумма квадратов остатков: 0,8² + 0,7² + 0,8² = 1,935

Пример 1 имел наибольшее произведение электронных терминов (максимальная вероятность), а также наименьшую сумму квадратов остатков. Не стесняйтесь брать любой набор остатков или электронных терминов и выполнять эти вычисления. Вы заметите, что мы максимизируем вероятность, минимизируя сумму квадратов остатков.

Заключение

Во многих случаях мы можем вывести и понять сложные концепции с помощью простых графиков и вычислений. Экспериментируя, мы смогли вывести одну из самых важных основополагающих концепций машинного обучения — максимальная вероятность для линейной регрессии аналогична минимизации суммы квадратов остатков. Я призываю вас подумать о том, как вы могли бы использовать продемонстрированные здесь методы для изучения других концепций.

Если вы хотите углубиться в математику для логарифмической вероятности, ознакомьтесь с этой статьей.