Масштабирование функций в машинном обучении

Допустим, вы столкнулись с набором данных о ценах на жилье в вашем районе с соответствующей площадью в квадратных футах. Вы, как энтузиаст данных, хотите понять взаимосвязь между площадью и ценой.

Первое, что вы, вероятно, сделаете, это создадите точечный график. Вот как это выглядит.

Вдохновленный тем, что вы видите, вы теперь хотите подобрать линию регрессии к этим данным. Вот как это выглядит.

Хотя на первый взгляд это выглядит хорошо, но при более внимательном рассмотрении вы зададите следующие вопросы.

  1. Что на самом деле передает значение перехвата -369,6?

Хотя иметь дом нулевой площади нецелесообразно, в перехвате говорится, что такие дома стоят минус 369 тысяч долларов. Это не имеет никакого смысла.

2. Почему доверительный интервал на пересечении такой большой, т. е. от -580 до -158 с очень высокой стандартной ошибкой?

Как вы можете видеть на диаграмме рассеивания, точки данных для независимой переменной «площадь» довольно далеки от нуля. Минимальное значение площади составляет около 1700–1800 квадратных футов.

По определению точка пересечения — это значение цены, когда площадь равна нулю (гипотетическая ситуация). Поскольку практически нет точек данных от 0 до 1700 квадратных футов для обучения модели, перехват становится нестабильным. Это означает, что перехват подвержен большим колебаниям, если мы добавим в наш набор данных еще несколько домов. Следовательно, модель становится нестабильной с точки зрения прогнозирования.

Один из способов решить эту проблему — масштабировать независимую переменную, т. е. в данном случае «площадь», таким образом, чтобы точки данных не группировались далеко от нуля.

Самый простой способ - сделать значения «площади» относительно среднего значения, вычитая их из среднего значения площади. Здесь средняя площадь составляет около 2000 квадратных футов, так что ваши данные будут выглядеть так.

Положительное значение для «area_centered» означает, что площадь дома превышает 2000 квадратных футов, и наоборот.

Вот как теперь выглядит ваша диаграмма рассеяния, линия регрессии и уравнение модели.

Наблюдения

  • В то время как коэффициент площади остался неизменным, доверительный интервал на пересечении стал уже с гораздо меньшей стандартной ошибкой.
  • Перехват также поддается интерпретации, т.е. дома со средней площадью оцениваются в 1,053 миллиона долларов.

Это простой пример, демонстрирующий ценность масштабирования функций для повышения надежности и интерпретируемости модели.

Кредиты : Codecademy

Где вы использовали масштабирование функций?