Важность функции:
Это относится к методам, которые присваивают оценку входным функциям в зависимости от того, насколько они полезны для прогнозирования целевых переменных.
Выбор функции:
Это процесс, в котором вы автоматически или вручную выбираете функции, которые больше всего влияют на вашу целевую переменную.
Короче говоря, оценка важности функции используется для выполнения выбора функции.
В данном примере набора данных Iris у нас есть четыре функции и одна целевая переменная.
Предположим, мы работаем над этой классификацией радужной оболочки, нам нужно создать базовую модель с использованием логистической регрессии. Теперь мы хотим попробовать Feature Selection и попытаться улучшить производительность нашей модели.
Как?
- Оценка важности функции говорит о том, что ширина и высота Пателя являются двумя главными функциями. Остальные имеют гораздо более низкую оценку важности.
- Итак, мы выберем эти 2 функции.
- Мы преобразуем наш существующий набор данных, чтобы он содержал только эти 2 функции.
- Мы будем обучать нашу модель на этом преобразованном наборе данных.
- Наконец, мы сравним показатели эволюции нашей исходной модели логистической регрессии с этой новой моделью.
Почему это важно?
К настоящему времени мы уже знаем ряд методов оптимизации, и может быть, это необходимость сокращения наших данных путем выбора функций, если мы можем просто оптимизировать?
Существует нечто известное как «проклятие размерности».
В машинном обучении,
«размерность» = количество признаков (т. е. входных признаков) набора данных.
Когда количество признаков очень велико по сравнению с количеством наблюдений (строк) в наборе данных, некоторые алгоритмы изо всех сил пытаются обучить эффективные модели. Это называется «Проклятие размерности».
Преимущества выполнения выбора признаков
- Уменьшение переобучения. Меньше избыточных данных означает меньше возможностей для принятия решения на основе нерелевантных данных (шум).
- Повышает производительность модели. Чем меньше вводящих в заблуждение данных, тем выше производительность нашей модели.
- Сокращение времени обучения. Чем меньше данных, тем быстрее обучается алгоритм.
Типы алгоритмов выбора функций
Методы фильтрации:
В методе выбора функций фильтра применяется статистическая мера для присвоения оценки каждой функции. Пример: дисперсионный анализ, хи-квадрат.
Методы оболочки:
Метод обертки рассматривает выбор набора признаков как задачу поиска, где подготавливаются, оцениваются и сравниваются различные комбинации с другими комбинациями. Пример - Рекурсивный, Борута.
Встроенные/внутренние методы:
Встроенный метод позволяет узнать, какая функция лучше всего способствует точности модели, пока модель создается. Наиболее распространенным типом методов выбора встроенных признаков являются методы регуляризации. Пример: модель на основе дерева, эластичная сетевая регрессия.