Моделирование никогда не было интуитивным понятием для многих, поскольку нам говорят, что жизнь никогда не бывает такой простой. Создать представление, описывающее поведение конкретной системы, довольно сложно и, вероятно, неправильно. Однако статистики создали различные методы, которые аналитики данных и ученые могут использовать для изучения закономерностей и тенденций, существующих в нашем мире.

Возьмем, к примеру, цены на жилье в Эймсе, штат Айова, с 2008 по 2010 год. Мы, граждане мира, понимаем, что цены на недвижимость время от времени колеблются в зависимости от различных факторов. Однако мы можем согласиться с тем, что большинство агентов по недвижимости скажут вам, что это либо «рынок покупателя», либо «рынок продавца». Чего мы не знаем, так это того, когда на самом деле появляются эти окна возможностей. Но что, если мы сможем предсказать, когда на самом деле произойдет цикл? С помощью статистического моделирования мы можем использовать различные данные по конкретному объекту недвижимости, а также время в качестве тенденции, чтобы увидеть, можем ли мы предсказать цены на различные дома в Эймсе.

Если рассмотреть распределение цен на недвижимость, то оно выглядит примерно так:

Цены немного смещены вправо, что означает, что мы можем нормализовать их с помощью логарифмического преобразования. Однако любой тип преобразований может потерять нашу интерпретацию отношений между функциями и целью. К счастью, мы можем выполнить обратное преобразование с помощью простого экспоненциального преобразования. Если мы нормализуем цены, это будет выглядеть так:

Это распределение более удобно для работы в наших моделях и должно обеспечивать лучший результат при прогнозировании зарегистрированных цен.

Для начала мы должны предположить простейший случай. Линейная модель принимает вид Y = β0 + β1X1 + ε, где β0 — точка пересечения модели, β1 — коэффициент первого признака X1, ε — ошибка, а Y — значение, связанное с X. Если мы переводим это в цены на жилье, мы можем сказать, что цена равна Y, а размер собственности — X. Затем мы можем сформулировать взаимосвязь между ними и посмотреть, как размер собственности влияет на цену. Если β1 положителен, то мы можем сказать, что увеличение X на одну единицу, то есть увеличение цены на единицу, увеличит цену Y, но сумму β1. Это, безусловно, самый простой случай, но в реальном мире будет гораздо больше факторов, определяющих любые цены на недвижимость. Итак, по сути, мы можем сказать, что линейная формула может быть представлена ​​​​как:

Y = β+ βXX + … + βXₙ + ε

for nколичество функций, которые могут повлиять на цену. Продолжая линейную модель, мы создали список прогнозируемых значений, которые мы можем сравнить с фактическими значениями для оценки. Если бы мы сопоставили результаты с фактическими значениями, это выглядело бы так:

Модель работала довольно прилично, дисперсия увеличивалась к верхнему правому краю модели. Если рассматривать дисперсию, то она выглядит так:

Не совсем то гомоскедастическое распределение, на которое мы надеялись, но модель была довольно приличной со среднеквадратической ошибкой в ​​​​19 323 доллара.

Существуют и другие модели, которые мы можем использовать для улучшения наших результатов, такие как модели Лассо и Ридж, однако применение этих моделей приведет к потере интерпретации признаков. Несмотря на это, обе модели достаточно надежны в функциях обнаружения, которые не так важны, за счет добавления штрафа к модели регрессии.

Мы можем увидеть, как Лассо сравнивается со стандартной линейной регрессией ниже:

Результаты кажутся схожими с линейной регрессией, но ошибки показывают другой результат:

Хотя веерная остаточная картина не показывает гомоскедастические условия, распределение ошибок не было таким неравномерным, как в стандартной линейной модели.

Этот анализ является одним из самых упрощенных случаев, когда мы предсказываем, что цена дает набор функций, которые могут быть или не быть релевантными. Тем не менее, это отличное введение в будущие регрессионные модели для непрерывных данных.