В этом уроке мы обсудим масштабирование и нормализацию функций, методы, используемые для стандартизации диапазона независимых переменных или функций в вашем наборе данных. Мы сосредоточимся на построении интуиции вокруг этих концепций и на том, почему они важны для машинного обучения.

Масштабирование и нормализация признаков — это этапы предварительной обработки, которые помогают повысить производительность и сходимость алгоритмов машинного обучения. Многие алгоритмы, такие как градиентный спуск, K-ближайшие соседи и методы опорных векторов, чувствительны к масштабу входных признаков, что делает важными для применения методы масштабирования и нормализации признаков.

Масштабирование функции. Масштабирование функции – это процесс преобразования значений функции таким образом, чтобы они находились в согласованном диапазоне. Это гарантирует, что ни одна функция не будет доминировать в производительности модели из-за ее масштаба. Существует несколько методов масштабирования признаков:

  • Мин-макс масштабирование: Мин-макс масштабирование масштабирует значения функции путем вычитания минимального значения и деления на диапазон (максимальное значение — минимальное значение). Этот метод масштабирует значения признаков в диапазоне [0, 1].

Интуиция: представьте, что вы сравниваете двух бегунов, пробежавших забеги разной длины. Чтобы справедливо сравнить их производительность, вам нужно будет масштабировать их время до общего диапазона, например, в процентах от дистанции гонки.

  • Стандартизация (нормализация Z-оценки): стандартизация масштабирует значения функции путем вычитания среднего значения и деления на стандартное отклонение. Этот метод масштабирует значения признаков так, чтобы они имели среднее значение 0 и стандартное отклонение 1.

Интуиция: подумайте о стандартизации как о способе выражения значений признака относительно среднего в терминах стандартного отклонения. Это помогает поместить различные функции в общую шкалу.

Нормализация. Нормализация — это метод, используемый для преобразования функций набора данных в общий масштаб без искажения различий в диапазоне значений. Один из распространенных методов нормализации:

  • Нормализация единичного вектора (нормализация L2): нормализация единичного вектора масштабирует значения признака путем деления каждого значения на величину (евклидову длину) вектора признаков. Этот метод масштабирует значения признаков так, чтобы вектор признаков имел длину 1.

Интуиция: представьте, что вы сравниваете два вектора разной длины. Чтобы справедливо сравнить их направления, вам нужно нормализовать их длины до 1, чтобы их величины не влияли на сравнение.

Таким образом, масштабирование и нормализация признаков — это методы предварительной обработки, которые помогают стандартизировать ряд признаков в наборе данных, повышая производительность и сходимость алгоритмов машинного обучения. Мин-макс масштабирование, стандартизация и нормализация единичного вектора являются распространенными методами для достижения этой цели. Понимая различия между этими методами и их приложениями, мы можем принимать более обоснованные решения при подготовке наших данных для моделей машинного обучения.