Использование статистики, вероятности и интеллектуального анализа данных для прогнозирования будущих результатов.

Что такое прогнозное моделирование?

Прогнозирующее моделирование - это процесс получения известных результатов и разработки модели, которая может прогнозировать значения для новых событий. Он использует исторические данные для прогнозирования будущих событий. Существует множество различных типов методов прогнозного моделирования, включая ANOVA, линейную регрессию (обычные методы наименьших квадратов), логистическую регрессию, гребневую регрессию, временные ряды, деревья решений, нейронные сети и многие другие. Выбор правильной техники прогнозного моделирования в начале проекта может сэкономить много времени. Выбор неправильной техники моделирования может привести к неточным прогнозам и графикам остатков, которые будут иметь непостоянную дисперсию и / или среднее значение.

Регрессионный анализ

Регрессионный анализ используется для прогнозирования непрерывной целевой переменной на основе одной или нескольких независимых переменных. Обычно регрессионный анализ используется с естественными переменными, а не с переменными, которыми манипулировали путем экспериментов. Как указывалось выше, существует много различных типов регрессии, поэтому, когда мы решили использовать регрессионный анализ, как нам выбрать, какой метод регрессии следует применять?

ANOVA

ANOVA, или дисперсионный анализ, следует использовать, когда целевая переменная является непрерывной, а зависимые переменные категориальными. Нулевая гипотеза в этом анализе заключается в том, что между разными группами нет существенной разницы. Генеральная совокупность должна быть нормально распределена, случаи выборки должны быть независимыми друг от друга, а дисперсия должна быть примерно одинаковой между группами.

Линейная регрессия

Линейная регрессия должна использоваться, когда целевая переменная является непрерывной, а зависимая переменная (и) является непрерывной или смесью непрерывных и категориальных, а отношения между независимой переменной и зависимыми переменными являются линейными. Кроме того, все переменные-предикторы должны иметь нормальное распределение с постоянной дисперсией и практически не демонстрировать мультиколлинеарность или автокорреляцию друг с другом.

Логистическая регрессия

Логистическая регрессия не требует линейной связи между целевой и зависимой переменной (ами). Целевая переменная является двоичной (принимает значение 0 или 1) или дихотомической. Ошибки / остатки логистической регрессии не обязательно должны иметь нормальное распределение, а дисперсия остатков не обязательно должна быть постоянной. Однако зависимые переменные являются бинарными, наблюдения должны быть независимыми друг от друга, в данных не должно быть мультиколлинеарности или автокорреляции, а размер выборки должен быть большим. Наконец, хотя этот анализ не требует, чтобы независимые и зависимые переменные были связаны линейно, независимые переменные должны быть линейно связаны с логарифмическими коэффициентами.

Ридж-регрессия

Ридж-регрессия - это метод анализа множественных регрессионных переменных, которые испытывают мультиколлинеарность. Риджевая регрессия использует обычный подход наименьших квадратов и учитывает высокую дисперсию остатков, добавляя степень смещения к оценкам регрессии для уменьшения стандартных ошибок. Предположения следуют предположениям множественной регрессии, диаграммы разброса должны быть линейными, должна быть постоянная дисперсия без выбросов, а зависимые переменные должны демонстрировать независимость.

Временные ряды

Регрессионный анализ временных рядов - это метод прогнозирования будущих ответов на основе истории ответов. Данные для временного ряда должны представлять собой набор наблюдений за значениями, которые переменная принимает в разные моменты времени. Данные являются двумерными, и независимой переменной является время. Ряды должны быть стационарными, то есть они нормально распределены: среднее значение и дисперсия ряда постоянны в течение длительных периодов времени. Кроме того, остатки также должны нормально распределяться с постоянным средним значением и дисперсией в течение длительного периода времени, а также некоррелированными. В серии не должно быть выбросов. Если присутствуют случайные шоки, они действительно должны быть распределены случайным образом со средним значением 0 и постоянной дисперсией.

Классификационный анализ

Деревья решений

Деревья решений - это тип алгоритма супервизионного обучения, который многократно разбивает выборку на основе определенных вопросов об этой выборке. Они очень полезны для задач классификации. Они относительно просты для понимания и очень эффективны. Деревья решений представляют собой несколько решений, имеющих разные шансы возникновения. Этот метод помогает нам определить наиболее значимые переменные и отношения между двумя или более переменными.

Нейронные сети

Нейронные сети помогают кластеризовать и классифицировать данные. Эти алгоритмы смоделированы по образцу человеческого мозга и предназначены для распознавания закономерностей. Нейронные сети, как правило, очень сложны, поскольку состоят из набора алгоритмов. Этот тип анализа может быть очень полезным, однако, если вы пытаетесь определить почему что-то произошло, это может быть не лучшая модель для использования.

В заключение, это всего лишь несколько вариантов различных методов прогнозирования, которые можно использовать для моделирования данных. Следует отметить, что установление причинно-следственных связей между переменными при использовании методов прогнозного анализа очень опасно. Мы не можем утверждать, что одна переменная вызвала другую при прогнозном анализе, скорее, мы можем заявить, что одна переменная оказала влияние на другую и каков был этот эффект.

Подключимся:

Https://www.linkedin.com/in/mackenzie-mitchell-635378101/



Ресурсы:

Https://www.statisticssolutions.com/manova-analysis-anova/

Https://dss.princeton.edu/online_help/analysis/regression_intro.htm#targetText=Regression%20analysis%20is%20used%20when,logistic%20regression%20should%20be%20used.

Https://www.statisticssolutions.com/assumings-of-logistic-regression/#targetText=Third%2C%20logistic%20regression%20requires%20there,independent%20variables%20and%20log%20odds.

Https://www.microstrategy.com/us/resources/introductory-guides/predictive-modeling-the-only-guide-you-need

Https://skymind.ai/wiki/neural-network

Https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Ridge_Regression.pdf

Https://www.analyticsvidhya.com/blog/2015/01/decision-tree-simplified/2/