Выбор функций — это метод, с помощью которого мы выбираем наиболее релевантную или важную функцию в нашем наборе данных, которая будет использоваться алгоритмом машинного обучения.
Используя методы выбора функций, мы можем отказаться от ненужных функций, повысив производительность и уменьшив сложность алгоритма.
Выбор признаков отличается от уменьшения размерности, поскольку он не вводит новую преобразованную ось в наши данные. Это просто дает нам атрибут «да» или «нет» для конкретной функции.
Есть четыре способа, с помощью которых мы можем сделать выбор функции:
1) Методы-оболочки Метод-оболочки создает другую модель с подмножеством функций, затем оценивает точность каждой модели и выбирает функции в модели, имеющие наилучший показатель точности.
Поскольку мы оцениваем модель для другого подмножества подходов-оболочек функций, это очень затратно в вычислительном отношении. Однако точность выше по сравнению с другим подходом, поскольку данные проверяются с помощью моделей машинного обучения.
Некоторыми из методов-оболочек являются рекурсивное устранение признаков, последовательный выбор признаков и генетические алгоритмы.
2) Методы фильтрации. В отличие от подхода Wrapper, он не оценивает подмножество функций с помощью модели машинного обучения. Он использует статистические методы для нахождения связи между функциями с выходными переменными.
Поскольку мы не оцениваем модель для разных подмножеств функций, она не требует больших вычислительных затрат и используется, когда у нас есть большое количество функций.
Некоторыми из методов выбора фильтра являются получение информации, критерий хи-квадрат, оценка Фишера, коэффициент корреляции, LDA, ANOVA.
3) Гибридный метод. В гибридном подходе мы сначала выбираем некоторые оптимальные функции, используя статистический подход, а затем применяем оболочку поверх них.
Используя это, мы находим оптимальное наилучшее соответствие, которое использует преимущества как фильтра, так и подхода-оболочки.
4) Встроенный метод. Во встроенном методе выбор функций осуществляется во время обучения модели.
Алгоритм обучения использует собственный метод выбора и одновременно выполняет выбор признаков и прогнозирование.
Встроенные методы быстрее, чем методы-оболочки, и более точны, чем методы фильтрации, и менее подвержены переобучению.
Некоторыми из методов встроенного подхода являются регуляризация L1 (LASSO), дерево решений.