Я работаю над алгоритмом регрессии, в данном случае k-NearestNeighbors, чтобы предсказать определенную цену продукта.
Итак, у меня есть обучающий набор, который имеет только одну категориальную функцию с 4 возможными значениями. Я справился с этим, используя схему категориального кодирования «один к k», что означает, что теперь у меня есть еще 3 столбца в моем Pandas DataFrame с 0/1 в зависимости от имеющегося значения.
Другие функции DataFrame - это в основном расстояния, такие как широта - долгота для местоположений и цен, все числовые.
Следует ли стандартизировать (распределение Гаусса с нулевым средним и единичной дисперсией) и нормализовать до или после категориального кодирования?
Я думаю, что может быть полезно нормализовать после кодирования, чтобы каждая функция была для оценщика так же важна, как и все остальные при измерении расстояний между соседями, но я не совсем уверен.