Важность функции:

Это относится к методам, которые присваивают оценку входным функциям в зависимости от того, насколько они полезны для прогнозирования целевых переменных.

Выбор функции:

Это процесс, в котором вы автоматически или вручную выбираете функции, которые больше всего влияют на вашу целевую переменную.

Короче говоря, оценка важности функции используется для выполнения выбора функции.

В данном примере набора данных Iris у нас есть четыре функции и одна целевая переменная.

Предположим, мы работаем над этой классификацией радужной оболочки, нам нужно создать базовую модель с использованием логистической регрессии. Теперь мы хотим попробовать Feature Selection и попытаться улучшить производительность нашей модели.

Как?

  1. Оценка важности функции говорит о том, что ширина и высота Пателя являются двумя главными функциями. Остальные имеют гораздо более низкую оценку важности.
  2. Итак, мы выберем эти 2 функции.
  3. Мы преобразуем наш существующий набор данных, чтобы он содержал только эти 2 функции.
  4. Мы будем обучать нашу модель на этом преобразованном наборе данных.
  5. Наконец, мы сравним показатели эволюции нашей исходной модели логистической регрессии с этой новой моделью.

Почему это важно?

К настоящему времени мы уже знаем ряд методов оптимизации, и может быть, это необходимость сокращения наших данных путем выбора функций, если мы можем просто оптимизировать?

Существует нечто известное как «проклятие размерности».

В машинном обучении,

«размерность» = количество признаков (т. е. входных признаков) набора данных.

Когда количество признаков очень велико по сравнению с количеством наблюдений (строк) в наборе данных, некоторые алгоритмы изо всех сил пытаются обучить эффективные модели. Это называется «Проклятие размерности».

Преимущества выполнения выбора признаков

  1. Уменьшение переобучения. Меньше избыточных данных означает меньше возможностей для принятия решения на основе нерелевантных данных (шум).
  2. Повышает производительность модели. Чем меньше вводящих в заблуждение данных, тем выше производительность нашей модели.
  3. Сокращение времени обучения. Чем меньше данных, тем быстрее обучается алгоритм.

Типы алгоритмов выбора функций

Методы фильтрации:

В методе выбора функций фильтра применяется статистическая мера для присвоения оценки каждой функции. Пример: дисперсионный анализ, хи-квадрат.

Методы оболочки:

Метод обертки рассматривает выбор набора признаков как задачу поиска, где подготавливаются, оцениваются и сравниваются различные комбинации с другими комбинациями. Пример - Рекурсивный, Борута.

Встроенные/внутренние методы:

Встроенный метод позволяет узнать, какая функция лучше всего способствует точности модели, пока модель создается. Наиболее распространенным типом методов выбора встроенных признаков являются методы регуляризации. Пример: модель на основе дерева, эластичная сетевая регрессия.