Линейная регрессия — один из самых простых алгоритмов машинного обучения с учителем. Он популярен для прогнозирования непрерывных данных, таких как цена, вес, счет в крикет и т. д. Он важен для оценки данных и установления определенной связи между двумя или более переменными.
Например.
Предположим, что между Индией и Австралией проводится однодневный матч по крикету. Индия выиграла жеребьевку и выбрала биту первой и набрала 245 пробежек за 35 оверов (при условии постоянной скорости бега с самого начала). Теперь, учитывая текущую норму пробега, индийский шкипер хотел бы знать, какой будет общая сумма после следующих 12 оверов, чтобы разработать стратегию.
Общий счет после следующих 12 повторов = Общий счет после 35 повторений + Прогнозируемый счет в следующих 12 оверах + Случайная ошибка
Да, это просто. Вы найдете общий балл, умножив скорость на 12 и добавив баллы, которые были в конце 35 оверов. Верно?
Общий балл после следующих 12 повторов = 245 + (скорость выполнения x 12) + случайная ошибка
Общий балл после следующих 12 перевесов = 245 + (7 x 12) + случайная ошибка
Вот как выглядит простое линейное уравнение.
Математически это представляется как
Случайная ошибка: это разница между наблюдаемыми и истинными значениями. Случайная ошибка всегда включается в регрессионную модель, потому что, если не существует идеальной линейной зависимости между переменными, включенными в регрессионную модель, всегда будет некоторая ошибка (или вариация), которая остается неучтенной моделью.
Сценарий реального мира
Здесь пример был довольно прост для понимания, но когда у нас есть реальные данные, он будет иметь дисперсию, и найти коэффициент регрессии (β1) и точку пересечения (β0) будет сложно, так как в приведенном выше примере невозможно иметь постоянную скорость выполнения с начала матча.
На приведенном ниже графике, если вы соедините все точки, это не будет идеальной линией, поэтому в этом сценарии мы должны найти линию и ее коэффициент, которые имеют минимальное перпендикулярное расстояние от этой точки.
Построение модели наилучшего соответствия вручную
Чтобы построить модель наилучшего соответствия, нам нужно найти соответствующий коэффициент и значения перехвата, чтобы сумма квадратов ошибок регрессии стала минимальной. Мы используем дифференциальное исчисление, чтобы найти то же самое. Используя дифференциальное исчисление, мы пришли бы к
где x — значения предиктора
y — фактические целевые значения
n — размер выборки
Для вывода этого уравнения вы можете пройти по этой ссылке https://towardsdatascience.com/linear-regression-derivation-d362ea3884c2
Теперь, используя приведенное выше уравнение, мы можем найти как точку пересечения, так и коэффициент линейной регрессии. Вот счет (пробежки) после каждого овер
Из приведенных выше данных мы можем использовать значение x (Overs) и y (Run) для расчета β0 и β1. Перед этим мы должны вычислить Σx, Σy, Σxy и Σx^(2)
Здесь мы рассчитали необходимые условия
подставив эти расчетные значения в уравнения 1 и 2, мы можем найти-
пересечение β0: -5,625210084033625
Коэффициент регрессии β1: 7,658543417366947
Теперь, построив эту линию с использованием вышеуказанного коэффициента, мы можем найти наиболее подходящую линию.
Проверка модели наилучшего соответствия
Здесь на приведенном выше графике (обозначенном как 2) есть некоторая разница между истинным значением и прогнозируемым значением. Для наилучшего соответствия линии сумма квадратов этой разности должна быть минимальной. Мы не суммируем невязку для поиска наилучшей модели, это объясняется ниже на примере
Предположим, у нас есть ошибка в невязке 4, -4,7,8, -15. При суммировании этой ошибки мы получим значение 0, что указывает на то, что это будет наиболее подходящая модель. Но это может быть не так. Следовательно, мы вычисляем SSE.