Проклятие: причинение серьезного вреда чему-либо, в данном случае модели машинного обучения.
Размерность:мера пространственной протяженности, особенно ширины, высоты или длины и т. д. В этом случае количество объектов представляет собой количество измерений. Короче говоря, высокие характеристики наносят вред нашей модели машинного обучения.
Проклятие размерности-
В модели ML, использующей данные высокой размерности, существует оптимальное количество признаков, после которого модель не повышает точность. Производительность модели, в свою очередь, снижает точность и делает модель более сложной в вычислительном отношении.
Чем с большим количеством измерений вы работаете, тем менее эффективными становятся стандартные вычислительные и статистические методы.
Высокоразмерные данные
- Изображение
- Текстовые данные
Почему существует проблема в более высоком измерении?
Основной причиной этого является разреженность данных.
Допустим, в коробку, изображенную выше, упакован бриллиант. В первом случае с 5 ящиками легче найти, так как он в одном измерении. Во втором случае найти бриллиант сложнее, чем в первом, так как ящиков 25. В третьем случае очень сложно, так как ящиков 125.
Точно так же увеличение размерности вызывает увеличение сложности (в геометрической прогрессии) в более высоких измерениях. По мере того как данные становятся разреженными, то есть удаленными друг от друга, статистические модели и модели машинного обучения перестают работать.
Например, k-ближайший сосед, где, если точки данных находятся очень далеко, например, в 50 измерениях, то метрика расстояния также далека друг от друга, мы не можем сказать, что это сосед, поскольку точки очень далеко.
Проблемы с проклятием размерности
- Снижение производительности
- Вычисление увеличивается
- Сложность метрики расстояния увеличивается.
Решение-
Чтобы решить эту проблему, существует метод, называемый уменьшением размерности. Мы уменьшаем количество столбцов в наборе данных и превращаем их в новые столбцы.
Существует 2 метода уменьшения размерности: выбор признаков и извлечение признаков.
Извлечение функций-
Создайте совершенно новый набор столбцов из существующего набора столбцов.
i) PCA (анализ основных компонентов) -
Сократите многомерные данные до более низких измерений, вращая оси, где основные компоненты сохраняют наибольшую дисперсию.
ii) LDA (линейный дискриминантный анализ) —
Уменьшите многомерные данные до более низких измерений путем вращения осей, что улучшает разделение классов.
iii) t-SNE (встраивание стохастических соседей с t-распределением)
Это метод нелинейного уменьшения размерности, направленный на то, чтобы очень похожие точки данных находились близко друг к другу в пространстве с меньшими размерностями. Он хорошо подходит для встраивания многомерных данных для визуализации в низкоразмерное двух- или трехмерное пространство.
Выбор функции -
выберите набор столбцов из заданного набора данных, который содержит высокую информацию.
i) Прямой выбор-
На каждом этапе этот оценщик выбирает наилучшее подмножество функций на основе оценки перекрестной проверки оценщика в алгоритме ML.
ii) Обратная элиминация-
Это итеративный подход, при котором мы сначала начинаем со всех функций, а после каждой итерации удаляем наименее значимую функцию. Мы останавливаемся, когда производительность модели не улучшается после удаления функции.
Шаг 1)Выбор важного значения p
Шаг 2)Подбор модели
шаг 3)Выберите предиктор с наибольшим P-значением и
шаг 4)Отменить этот предиктор.
iii) Двунаправленное устранение-
Он похож на прямой выбор, но разница в том, что при добавлении новой функции также проверяется значимость ранее добавленных функций, и если какая-либо из ранее выбранных функций оказывается несущественной, она просто удаляется с помощью обратного исключения. .
Сочетаниепрямого выбораиобратного исключения.
Спасибо за прочтение!
Подпишитесь на меня, чтобы узнать больше о DS и ML.