Введение

В этой статье будет рассмотрен статистический метод среднеквадратичной ошибки, и я опишу связь этого метода с линией регрессии.

Пример состоит из точек на декартовой оси. Мы определим математическую функцию, которая даст нам прямую линию, которая лучше всего проходит между всеми точками на декартовой оси.

И таким образом мы узнаем связь между этими двумя методами и то, как выглядит результат их соединения вместе.

Общее объяснение

Это определение из Википедии:

В статистике среднеквадратичная ошибка (MSE) оценщика (процедуры оценки ненаблюдаемой величины) измеряет среднее квадратов ошибок, то есть среднеквадратичную разницу между оцененными значениями и тем, что оценивается. MSE - это функция риска, соответствующая ожидаемому значению квадрата потери ошибок. Тот факт, что MSE почти всегда строго положительна (а не равна нулю), объясняется случайностью или тем, что оценщик не учитывает информацию, которая могла бы дать более точную оценку.

Структура статьи

  • Получите представление об идее, графической визуализации, уравнении среднеквадратичной ошибки.
  • Математическая часть, которая содержит алгебраические манипуляции и производную функций двух переменных для нахождения минимума. Этот раздел предназначен для тех, кто хочет понять, как мы позже получаем математические формулы, вы можете пропустить его, если вас это не интересует.
  • Объяснение полученных математических формул и роли каждой переменной в формуле.
  • Примеры

Почувствуйте идею

Допустим, у нас есть семь точек, и наша цель - найти линию, которая минимизирует квадраты расстояний до этих разных точек.

Попробуем это понять.

Я возьму пример и проведу линию между точками. Конечно, мой рисунок не самый лучший, но он просто для демонстрации.

Вы можете спросить себя, что это за график?

  • фиолетовые точки - это точки на графике. Каждая точка имеет координату x и координату y.
  • Синяя линия - это линия нашего прогноза. Это линия, которая проходит через все точки и наилучшим образом подходит к ним. Эта строка содержит прогнозируемые точки.
  • красная линия между каждой фиолетовой точкой и линией прогноза - это ошибки. Каждая ошибка - это расстояние от точки до предполагаемой точки.

Вы должны помнить это уравнение еще в школьные годы, y = Mx + B, где M - это наклон линии, а B - y-точка пересечения линии.

Мы хотим найти M (наклон) и B (y-точку пересечения), которые минимизируют квадратичную ошибку!

Давайте определим математическое уравнение, которое даст нам среднеквадратичную ошибку для всех наших точек.

Давайте проанализируем, что на самом деле означает это уравнение.

  • В математике символ, который выглядит как странный E, называется суммированием (греческая сигма). Это сумма последовательности чисел от i = 1 до n. Представим это как массив точек, в котором мы перебираем все точки, от первой (i = 1) до последней (i = n).
  • Для каждой точки мы берем координату y точки и координату y’. Координата Y - это наша фиолетовая точка. Точка y находится на созданной нами линии. Мы вычитаем значение координаты Y из значения координаты Y и вычисляем квадрат результата.
  • Третья часть - взять сумму всех значений (y-y ’) ² и разделить ее на n, что даст среднее значение.

Наша цель - минимизировать это среднее, чтобы получить лучшую линию, проходящую через все точки.

От концепции к математическим уравнениям

Эта часть для людей, которые хотят понять, как мы пришли к математическим уравнениям. Если хотите, можете перейти к следующей части.

Как вы знаете, уравнение прямой имеет вид y = mx + b, где m - наклон, а b - точка пересечения с y.

Давайте возьмем каждую точку на графике, и мы сделаем наш расчет (y-y ’) ².
Но что такое y’ и как мы его вычисляем? У нас нет его в составе данных.

Но мы знаем, что для вычисления y ’нам нужно использовать наше линейное уравнение y = mx + b и поместить x в уравнение.

Отсюда получаем следующее уравнение:

Давайте перепишем это выражение, чтобы упростить его.

Давайте начнем с раскрытия всех скобок в уравнении. Я раскрасил разницу между уравнениями, чтобы облегчить понимание.

А теперь применим еще одну манипуляцию. Мы возьмем каждую часть и соберем ее вместе. Мы возьмем все y, (-2ymx) и т. Д. И поместим их все рядом.

На этом этапе мы начинаем путаться, поэтому давайте возьмем среднее значение всех квадратов значений y, xy, x, x².

Давайте определим для каждого из них новый символ, который будет представлять среднее всех квадратов значений.

Давайте посмотрим на пример. Давайте возьмем все значения y, разделим их на n, поскольку это среднее значение, и назовем его y (HeadLine).

Если мы умножим обе части уравнения на n, получим:

Это приведет нас к следующему уравнению:

Если мы посмотрим на то, что у нас получилось, мы увидим, что у нас есть трехмерная поверхность. Похоже на стакан, который резко поднимается вверх.

Мы хотим найти M и B, которые минимизируют функцию. Мы сделаем частную производную по M и частную производную по B.

Поскольку мы ищем точку минимума, мы возьмем частные производные и сравним с 0.

Давайте возьмем два полученных уравнения, выделим переменную b из обоих, а затем вычтем верхнее уравнение из нижнего.

Вычтем первое уравнение из второго.

Избавимся от знаменателей в уравнении.

Итак, это уравнение для поиска M, давайте возьмем его и запишем уравнение B.

Уравнения для наклона и пересечения по оси Y

Приведем математические уравнения, которые помогут нам найти требуемый наклон и точку пересечения оси y.

Итак, вы, вероятно, думаете про себя, что это, черт возьми, за эти странные уравнения?

На самом деле они просты для понимания, поэтому давайте поговорим о них немного.

Теперь, когда мы понимаем наши уравнения, пора собрать все воедино и показать несколько примеров.

Примеры

Большое спасибо Khan Academy за примеры.

Пример # 1

Возьмем 3 точки (1,2), (2,1), (4,3).

Найдем M и B для уравнения y = mx + b.

После того, как мы вычислили соответствующие части для нашего уравнения M и уравнения B, давайте поместим эти значения в уравнения и получим наклон и точку пересечения по оси y.

Давайте возьмем эти результаты и поместим их в линейное уравнение y = mx + b.

Теперь давайте нарисуем линию и посмотрим, как линия проходит через линии таким образом, чтобы минимизировать квадраты расстояний.

Пример # 2

Возьмем 4 балла: (-2, -3), (-1, -1), (1,2), (4,3).

Найдем M и B для уравнения y = mx + b.

Как и раньше, давайте поместим эти значения в наши уравнения, чтобы найти M и B.

Давайте возьмем эти результаты и поместим их в линейное уравнение y = mx + b.

Теперь давайте нарисуем линию и посмотрим, как линия проходит через линии таким образом, чтобы минимизировать квадраты расстояний.

В заключение

Как видите, идея проста. Нам просто нужно понять основные части и то, как мы с ними работаем.

Вы можете работать с формулами, чтобы найти линию на другом графике, а также выполнить простой расчет и получить результаты для наклона и пересечения по оси y.

Все просто, а? 😏

Приветствуются любые комментарии и отзывы - при необходимости исправлю статью.

Не стесняйтесь обращаться ко мне напрямую в LinkedIn - Щелкните здесь.