Что такое уменьшение размерности?

Метод уменьшения количества измерений (или признаков) в наборе данных при сохранении как можно большего количества информации известен как уменьшение размерности. Это метод, обычно используемый в машинном обучении и интеллектуальном анализе данных, чтобы минимизировать сложность данных и повысить производительность модели.

Уменьшение размерности может быть достигнуто различными способами, в том числе:

Анализ основных компонентов (АПК): АПК – это статистический метод, который определяет набор некоррелированных переменных, называемых основными компонентами, которые представляют собой линейные комбинации исходных переменных. Первый главный компонент объясняет наибольшую дисперсию данных, а каждый последующий компонент объясняет меньше. PCA часто используется в качестве этапа предварительной обработки данных для алгоритмов машинного обучения, поскольку он может помочь уменьшить сложность данных и повысить производительность модели.

LDA (линейный дискриминантный анализ): LDA – это статистический инструмент для классификации вакансий. Он работает, определяя линейную комбинацию атрибутов данных, которая максимизирует разделение между различными классами. Чтобы повысить производительность модели, LDA часто используется в сочетании с другими методами классификации, такими как логистическая регрессия или машины опорных векторов.

Внедрение t-распределенных стохастических соседей (t-SNE). Встраивание t-распределенных стохастических соседей (t-SNE) — это подход нелинейного уменьшения размерности, который особенно полезен для отображения многомерных наборов данных. Он работает, сохраняя локальную структуру данных, а это означает, что точки, расположенные близко друг к другу в исходном пространстве, будут также близки друг к другу в пространстве меньшего измерения. t-SNE часто используется при визуализации данных, поскольку он может помочь в выявлении закономерностей и взаимосвязей в данных.

Существует много других методов, которые можно использовать для уменьшения размерности, включая многомерное масштабирование, анализ независимых компонентов и автоэнкодеры. Выбор метода будет зависеть от конкретных характеристик данных и целей анализа.

Что такое выбор признаков?

Процесс выбора подмножества признаков (также известных как предикторы или независимые переменные) в наборе данных для использования в модели машинного обучения известен как выбор признаков. Целью выбора признаков является обнаружение признаков, которые являются наиболее релевантными и значимыми для прогнозирования целевой переменной (также известной как отклик или зависимая переменная).

Использование функции выбора имеет ряд преимуществ:

Улучшенная интерпретируемость модели. Благодаря уменьшению количества функций в модели взаимосвязь между переменными и прогнозами модели становится легче понять и интерпретировать.

Снижена опасность переобучения. Когда модель включает слишком много функций, она с большей вероятностью переобучается, что означает, что она хорошо работает на обучающих данных, но плохо на новых, неизвестных данных. Выбирая подмножество наиболее релевантных функций, выбор функций может помочь ограничить риск переобучения.

Улучшенная производительность модели. Удаляя ненужные или лишние функции из модели, можно повысить ее производительность и точность.

Существует множество доступных методов выбора функций, в том числе:

Подходы к фильтрации: эти методы выбирают функции на основе статистических измерений, таких как корреляция или взаимная информация.

Подходы с оболочкой: в этих методах используется алгоритм машинного обучения для оценки производительности различных подмножеств функций и выбора лучшего из них.

Встроенные подходы. Эти методы выполняют выбор функций в рамках процесса обучения алгоритма машинного обучения.

Используемый подход к выбору признаков будет определяться качеством данных и целями исследования. Чтобы выбрать оптимальное подмножество признаков для модели, обычно полезно попробовать различные методы и сравнить результаты.

Так в чем же разница между уменьшением размерности и выбором признаков?

Таким образом, выбор признаков выбирает подмножество наиболее значимых признаков из набора данных, тогда как уменьшение размерности преобразует данные в пространство более низкой размерности. Обе стратегии можно использовать для повышения производительности и интерпретируемости модели машинного обучения, но они работают по-разному и выполняют разные функции.