Регрессионные модели являются важными элементами прогнозной аналитики. Модель регрессии представляет собой набор уравнений, сформированных путем изучения числовых данных. Это дает наиболее подходящую связь между прогнозируемыми данными и функциями, используемыми для прогнозирования.
Доступно большое количество регрессионных моделей. Самая простая и более интерпретируемая модель регрессии — это линейная регрессия.
Линейная регрессия находит линейное уравнение линии, которое лучше всего соответствует входным данным и прогнозируемым результатам. Наилучшее соответствие достигается за счет уменьшения ошибки предсказания до минимума.
R-квадрат — это мера, используемая для оценки того, насколько хорошо регрессионная модель соответствует данным.
R-квадрат = 1 — (SSE/SST)
SSE = сумма квадратов ошибок точек данных регрессионной модели.
SST = сумма квадратов ошибок базовой модели.
Значение R-квадрата представлено в диапазоне от 0 до 1, где 1 означает, что модель регрессии соответствует данным со 100% точностью.
Если R-квадрат равен 0,7, это означает, что 70% вариаций в прогнозируемом выходе объясняются входными данными (признаками), используемыми для прогнозирования регрессионной моделью.
Скорректированный R-квадрат определяется по формуле:
R-квадрат = R-квадрат-1-(1-R-квадрат)* (n-1/n-p-1)
n = количество точек данных
p = количество независимых переменных, используемых в модели
Скорректированный R-квадрат уменьшается, когда мы добавляем бесполезные функции в качестве входных данных для прогнозирования, и увеличивается, когда мы добавляем полезные функции в качестве входных данных, используемых для прогнозирования.
R-квадрат показывает, насколько хорошо ваша модель соответствует данным, тогда как скорректированный R-квадрат показывает, насколько важна та или иная функция для вашей модели.
Разработка признаков использует скорректированный R-квадрат, чтобы выбрать или отклонить признаки, полезные для предсказания в регрессионном моделировании.