Уменьшение размерности — это метод, используемый в машинном обучении для уменьшения количества функций или переменных в наборе данных без потери важной информации, содержащейся в данных. Но зачем нам уменьшение размерности? Во-первых, обработка и анализ больших наборов данных могут потребовать значительных вычислительных ресурсов, поэтому уменьшение размерности может помочь уменьшить вычислительную сложность. Вторая проблема — мультиколлинеарность. Иногда два или более признаков в данных сильно коррелированы, поэтому использование уменьшения размерности может решить эту проблему. Третья проблема заключается в том, что многомерные данные трудно визуализировать в 2D или 3D-пространстве, что затрудняет понимание и понимание данных.

В общем, существует два типа методов уменьшения размеров: выбор признаков и извлечение признаков.

В разделе Выбор признаков цель состоит в том, чтобы выбрать подмножество исходных признаков, наиболее подходящих для задачи прогнозирования. идея состоит в том, чтобы исключить избыточные или нерелевантные функции, которые могут привести к переоснащению и снижению производительности модели. Некоторые распространенные методы выбора признаков включают коэффициент отсутствующих значений, фильтр низкой дисперсии и фильтр высокой корреляции.

Целью извлечения признаков является преобразование исходных признаков в новый набор признаков, которые фиксируют наиболее важную информацию в данных. Методы извлечения признаков часто используются, когда исходных признаков слишком много или когда исходные признаки сильно коррелированы. Некоторые распространенные методы выделения признаков включают анализ основных компонентов (PCA), линейный дискриминантный анализ (LDA) и t-SNE.

Счастливого обучения!!

Об авторе: я Крити Ядав, специалист по данным. Моя текущая работа сосредоточена на компьютерном зрении, глубоком обучении, обработке естественного языка и машинном обучении. Пожалуйста, свяжитесь со мной через мой профиль Linkedin, если у вас есть какие-либо вопросы.