Регрессионные модели являются важными элементами прогнозной аналитики. Модель регрессии представляет собой набор уравнений, сформированных путем изучения числовых данных. Это дает наиболее подходящую связь между прогнозируемыми данными и функциями, используемыми для прогнозирования.

Доступно большое количество регрессионных моделей. Самая простая и более интерпретируемая модель регрессии — это линейная регрессия.

Линейная регрессия находит линейное уравнение линии, которое лучше всего соответствует входным данным и прогнозируемым результатам. Наилучшее соответствие достигается за счет уменьшения ошибки предсказания до минимума.

R-квадрат — это мера, используемая для оценки того, насколько хорошо регрессионная модель соответствует данным.

R-квадрат = 1 — (SSE/SST)

SSE = сумма квадратов ошибок точек данных регрессионной модели.

SST = сумма квадратов ошибок базовой модели.

Значение R-квадрата представлено в диапазоне от 0 до 1, где 1 означает, что модель регрессии соответствует данным со 100% точностью.

Если R-квадрат равен 0,7, это означает, что 70% вариаций в прогнозируемом выходе объясняются входными данными (признаками), используемыми для прогнозирования регрессионной моделью.

Скорректированный R-квадрат определяется по формуле:

R-квадрат = R-квадрат-1-(1-R-квадрат)* (n-1/n-p-1)

n = количество точек данных

p = количество независимых переменных, используемых в модели

Скорректированный R-квадрат уменьшается, когда мы добавляем бесполезные функции в качестве входных данных для прогнозирования, и увеличивается, когда мы добавляем полезные функции в качестве входных данных, используемых для прогнозирования.

R-квадрат показывает, насколько хорошо ваша модель соответствует данным, тогда как скорректированный R-квадрат показывает, насколько важна та или иная функция для вашей модели.

Разработка признаков использует скорректированный R-квадрат, чтобы выбрать или отклонить признаки, полезные для предсказания в регрессионном моделировании.