Линейная регрессия — один из самых простых алгоритмов машинного обучения с учителем. Он популярен для прогнозирования непрерывных данных, таких как цена, вес, счет в крикет и т. д. Он важен для оценки данных и установления определенной связи между двумя или более переменными.
Например.
Предположим, что между Индией и Австралией проводится однодневный матч по крикету. Индия выиграла жеребьевку и выбрала биту первой и набрала 245 пробежек за 35 оверов (при условии постоянной скорости бега с самого начала). Теперь, учитывая текущую норму пробега, индийский шкипер хотел бы знать, какой будет общая сумма после следующих 12 оверов, чтобы разработать стратегию.

Общий счет после следующих 12 повторов = Общий счет после 35 повторений + Прогнозируемый счет в следующих 12 оверах + Случайная ошибка

Да, это просто. Вы найдете общий балл, умножив скорость на 12 и добавив баллы, которые были в конце 35 оверов. Верно?

Общий балл после следующих 12 повторов = 245 + (скорость выполнения x 12) + случайная ошибка

Общий балл после следующих 12 перевесов = 245 + (7 x 12) + случайная ошибка

Вот как выглядит простое линейное уравнение.
Математически это представляется как

Случайная ошибка: это разница между наблюдаемыми и истинными значениями. Случайная ошибка всегда включается в регрессионную модель, потому что, если не существует идеальной линейной зависимости между переменными, включенными в регрессионную модель, всегда будет некоторая ошибка (или вариация), которая остается неучтенной моделью.

Сценарий реального мира

Здесь пример был довольно прост для понимания, но когда у нас есть реальные данные, он будет иметь дисперсию, и найти коэффициент регрессии (β1) и точку пересечения (β0) будет сложно, так как в приведенном выше примере невозможно иметь постоянную скорость выполнения с начала матча.
На приведенном ниже графике, если вы соедините все точки, это не будет идеальной линией, поэтому в этом сценарии мы должны найти линию и ее коэффициент, которые имеют минимальное перпендикулярное расстояние от этой точки.

Построение модели наилучшего соответствия вручную

Чтобы построить модель наилучшего соответствия, нам нужно найти соответствующий коэффициент и значения перехвата, чтобы сумма квадратов ошибок регрессии стала минимальной. Мы используем дифференциальное исчисление, чтобы найти то же самое. Используя дифференциальное исчисление, мы пришли бы к

где x — значения предиктора
y — фактические целевые значения
n — размер выборки

Для вывода этого уравнения вы можете пройти по этой ссылке https://towardsdatascience.com/linear-regression-derivation-d362ea3884c2

Теперь, используя приведенное выше уравнение, мы можем найти как точку пересечения, так и коэффициент линейной регрессии. Вот счет (пробежки) после каждого овер

Из приведенных выше данных мы можем использовать значение x (Overs) и y (Run) для расчета β0 и β1. Перед этим мы должны вычислить Σx, Σy, Σxy и Σx^(2)

Здесь мы рассчитали необходимые условия

подставив эти расчетные значения в уравнения 1 и 2, мы можем найти-

пересечение β0: -5,625210084033625

Коэффициент регрессии β1: 7,658543417366947

Теперь, построив эту линию с использованием вышеуказанного коэффициента, мы можем найти наиболее подходящую линию.

Проверка модели наилучшего соответствия

Здесь на приведенном выше графике (обозначенном как 2) есть некоторая разница между истинным значением и прогнозируемым значением. Для наилучшего соответствия линии сумма квадратов этой разности должна быть минимальной. Мы не суммируем невязку для поиска наилучшей модели, это объясняется ниже на примере
Предположим, у нас есть ошибка в невязке 4, -4,7,8, -15. При суммировании этой ошибки мы получим значение 0, что указывает на то, что это будет наиболее подходящая модель. Но это может быть не так. Следовательно, мы вычисляем SSE.