Выбор функций — это метод, с помощью которого мы выбираем наиболее релевантную или важную функцию в нашем наборе данных, которая будет использоваться алгоритмом машинного обучения.

Используя методы выбора функций, мы можем отказаться от ненужных функций, повысив производительность и уменьшив сложность алгоритма.

Выбор признаков отличается от уменьшения размерности, поскольку он не вводит новую преобразованную ось в наши данные. Это просто дает нам атрибут «да» или «нет» для конкретной функции.

Есть четыре способа, с помощью которых мы можем сделать выбор функции:

1) Методы-оболочки Метод-оболочки создает другую модель с подмножеством функций, затем оценивает точность каждой модели и выбирает функции в модели, имеющие наилучший показатель точности.

Поскольку мы оцениваем модель для другого подмножества подходов-оболочек функций, это очень затратно в вычислительном отношении. Однако точность выше по сравнению с другим подходом, поскольку данные проверяются с помощью моделей машинного обучения.

Некоторыми из методов-оболочек являются рекурсивное устранение признаков, последовательный выбор признаков и генетические алгоритмы.

2) Методы фильтрации. В отличие от подхода Wrapper, он не оценивает подмножество функций с помощью модели машинного обучения. Он использует статистические методы для нахождения связи между функциями с выходными переменными.

Поскольку мы не оцениваем модель для разных подмножеств функций, она не требует больших вычислительных затрат и используется, когда у нас есть большое количество функций.

Некоторыми из методов выбора фильтра являются получение информации, критерий хи-квадрат, оценка Фишера, коэффициент корреляции, LDA, ANOVA.

3) Гибридный метод. В гибридном подходе мы сначала выбираем некоторые оптимальные функции, используя статистический подход, а затем применяем оболочку поверх них.

Используя это, мы находим оптимальное наилучшее соответствие, которое использует преимущества как фильтра, так и подхода-оболочки.

4) Встроенный метод. Во встроенном методе выбор функций осуществляется во время обучения модели.

Алгоритм обучения использует собственный метод выбора и одновременно выполняет выбор признаков и прогнозирование.

Встроенные методы быстрее, чем методы-оболочки, и более точны, чем методы фильтрации, и менее подвержены переобучению.

Некоторыми из методов встроенного подхода являются регуляризация L1 (LASSO), дерево решений.