Обычной практикой является использование масштабирования функций для повышения эффективности и стабильности моделей машинного обучения.

Это связано с тем, что данные масштабируются до стандартного диапазона. Это предотвращает существенное влияние конкретной функции на выходные данные модели.

Давайте рассмотрим пример, чтобы быстро понять…

Например, размер дохода на графике выше может оказать существенное влияние на общий прогноз. Это можно уменьшить, а производительность модели повысить, масштабируя обе функции в один и тот же диапазон.

Но всегда ли это необходимо?

Знание того, когда масштабировать функции, так же важно, как и знание этого метода.

Имейте в виду, что многие алгоритмы машинного обучения нечувствительны к масштабированию. Иллюстрация ниже поясняет это.

Как показано выше:

  • Логистическая регрессия, классификатор SVM, MLP и kNN лучше справляются с масштабированием функций.
  • Деревья решений, случайные леса, наивный байесовский алгоритм и повышение градиента не затрагиваются.

Возможно, вам никогда не понадобится масштабирование признаков, если алгоритм нечувствителен к масштабу данных.

Теперь это может быть совершенно новая тема для обсуждения того, почему некоторые алгоритмы не требуют масштабирования функций. Давайте займемся этим в нашей следующей серии «Последнее руководство».

Примечание редактора

Привет, народ! Надеюсь, этого руководства было достаточно, чтобы дать четкое представление о теме. Пожалуйста, скажите то же самое, если обнаружите что-то, что можно улучшить или исправить. Был бы самым счастливым, если бы знал.

Что касается меня, я Ритик Трипати, специалист по науке о данных. Меня поражает то, что я делюсь своим опытом и помогаю другим легче его понять.

Вот мой LinkedIn на случай, если вы захотите подключиться. Прощайте 🙋‍♂️