- Алгоритм линейной регрессии используется, чтобы увидеть взаимосвязь между переменными-предикторами и независимыми переменными. Эта связь представляет собой положительное, отрицательное или нейтральное изменение между переменными. В своей простейшей форме он пытается подобрать прямую линию к заданным обучающим данным. Затем эту линию можно использовать в качестве ссылки для прогнозирования будущих данных.

  • Алгоритм линейной регрессии представлен в виде формулы: y = mx + b. Где «y» — ваша зависимая переменная (оценка учащегося), а «x» — ваша независимая переменная (количество часов, отработанных учащимся).

Сильные стороны:

- Линейная регрессия реализуется очень быстро.

- Это легко понять.

- Он менее склонен к переоснащению.

Слабые стороны:

- Линейная регрессия плохо работает, когда есть нелинейные отношения.

- Трудно использовать на сложных наборах данных.

- Линейная регрессия очень чувствительна к выбросам.

Допущения линейной регрессии

1. Линейная зависимость

В нем говорится, что зависимые и независимые переменные должны быть линейно связаны. Мы можем использовать диаграммы рассеяния, чтобы визуализировать, есть ли линейная связь между переменными или нет. Важно проверить это предположение, потому что, если вы подгоните линейную модель к нелинейной, алгоритм регрессии не сможет уловить тренд.

2. Нормальное распределение остатков

Все остатки или погрешности должны быть нормально распределены. Если остатки распределены ненормально, оценка может стать слишком широкой или узкой. Чтобы проверить нормальное распределение, мы можем использовать следующие методы:

- Распределительные участки

- Графики QQ

3. Мультиколлинеарность

В данном наборе данных мультиколлинеарность должна быть меньше или отсутствовать. Такая ситуация возникает, когда признаки или независимые переменные данного набора данных сильно коррелируют друг с другом. Стандартные ошибки имеют тенденцию к увеличению из-за наличия коррелированных переменных. Мы можем проверить мультиколлинеарность, используя следующие подходы.

- Корреляционная матрица

- Толерантность

- Коэффициент инфляции дисперсии

4. Автокорреляция

Автокорреляция возникает, когда остатки или ошибки не являются независимыми друг от друга. Чтобы проверить автокорреляцию, мы можем использовать график остаточного временного ряда или тест Дарбина-Ватсона. График остаточных временных рядов представляет собой график зависимости остатков от времени.

5. Гомоскедастичность

Гомоскедастичность означает, что остатки (то есть «шум» или члены ошибки между независимыми переменными и зависимой переменной) одинаковы для всех значений независимых переменных. Остатки должны иметь постоянную дисперсию. Если это условие не соблюдается, оно известно как гетероскедастичность. Наличие гетероскедастичности в регрессионном анализе затрудняет доверие к результатам анализа. Мы можем проверить гомоскедастичность, используя следующие тесты:

- Тест Бреуша-Пегана: он определяет, зависит ли отклонение остатков от регрессии от значений независимых переменных. Если это так, то гетероскедастичность присутствует.

- Тест Уайта: Тест Уайта определяет, является ли дисперсия остатков в модели регрессионного анализа фиксированной или постоянной.