Проклятие: причинение серьезного вреда чему-либо, в данном случае модели машинного обучения.

Размерность:мера пространственной протяженности, особенно ширины, высоты или длины и т. д. В этом случае количество объектов представляет собой количество измерений. Короче говоря, высокие характеристики наносят вред нашей модели машинного обучения.

Проклятие размерности-

В модели ML, использующей данные высокой размерности, существует оптимальное количество признаков, после которого модель не повышает точность. Производительность модели, в свою очередь, снижает точность и делает модель более сложной в вычислительном отношении.

Чем с большим количеством измерений вы работаете, тем менее эффективными становятся стандартные вычислительные и статистические методы.

Высокоразмерные данные

  1. Изображение
  2. Текстовые данные

Почему существует проблема в более высоком измерении?

Основной причиной этого является разреженность данных.

Допустим, в коробку, изображенную выше, упакован бриллиант. В первом случае с 5 ящиками легче найти, так как он в одном измерении. Во втором случае найти бриллиант сложнее, чем в первом, так как ящиков 25. В третьем случае очень сложно, так как ящиков 125.

Точно так же увеличение размерности вызывает увеличение сложности (в геометрической прогрессии) в более высоких измерениях. По мере того как данные становятся разреженными, то есть удаленными друг от друга, статистические модели и модели машинного обучения перестают работать.

Например, k-ближайший сосед, где, если точки данных находятся очень далеко, например, в 50 измерениях, то метрика расстояния также далека друг от друга, мы не можем сказать, что это сосед, поскольку точки очень далеко.

Проблемы с проклятием размерности

  1. Снижение производительности
  2. Вычисление увеличивается
  3. Сложность метрики расстояния увеличивается.

Решение-

Чтобы решить эту проблему, существует метод, называемый уменьшением размерности. Мы уменьшаем количество столбцов в наборе данных и превращаем их в новые столбцы.

Существует 2 метода уменьшения размерности: выбор признаков и извлечение признаков.

Извлечение функций-

Создайте совершенно новый набор столбцов из существующего набора столбцов.

i) PCA (анализ основных компонентов) -

Сократите многомерные данные до более низких измерений, вращая оси, где основные компоненты сохраняют наибольшую дисперсию.

ii) LDA (линейный дискриминантный анализ) —

Уменьшите многомерные данные до более низких измерений путем вращения осей, что улучшает разделение классов.

iii) t-SNE (встраивание стохастических соседей с t-распределением)

Это метод нелинейного уменьшения размерности, направленный на то, чтобы очень похожие точки данных находились близко друг к другу в пространстве с меньшими размерностями. Он хорошо подходит для встраивания многомерных данных для визуализации в низкоразмерное двух- или трехмерное пространство.

Выбор функции -

выберите набор столбцов из заданного набора данных, который содержит высокую информацию.

i) Прямой выбор-

На каждом этапе этот оценщик выбирает наилучшее подмножество функций на основе оценки перекрестной проверки оценщика в алгоритме ML.

ii) Обратная элиминация-

Это итеративный подход, при котором мы сначала начинаем со всех функций, а после каждой итерации удаляем наименее значимую функцию. Мы останавливаемся, когда производительность модели не улучшается после удаления функции.

Шаг 1)Выбор важного значения p

Шаг 2)Подбор модели

шаг 3)Выберите предиктор с наибольшим P-значением и

шаг 4)Отменить этот предиктор.

iii) Двунаправленное устранение-

Он похож на прямой выбор, но разница в том, что при добавлении новой функции также проверяется значимость ранее добавленных функций, и если какая-либо из ранее выбранных функций оказывается несущественной, она просто удаляется с помощью обратного исключения. .

Сочетаниепрямого выбораиобратного исключения.

Спасибо за прочтение!

Подпишитесь на меня, чтобы узнать больше о DS и ML.