В области машинного обучения выбор признаков играет решающую роль в повышении производительности модели, снижении вычислительной сложности и улучшении интерпретируемости. Выбор признаков включает в себя определение наиболее релевантных и информативных признаков из данного набора данных.

Допустим, вы любитель пиццы и хотите создать систему рекомендаций по пицце на базе искусственного интеллекта. У вас есть огромная база данных с тысячами атрибутов, описывающих каждую пиццу, включая ингредиенты, тип корочки, тип сыра, вкус соуса и многое другое. Однако включение всех этих атрибутов в систему рекомендаций приведет к медленному и ресурсоемкому процессу. Выбирая только самые важные функции (например, популярные ингредиенты, предпочтения клиентов), вы можете быстро генерировать персонализированные рекомендации по пицце, не перегружая свою пиццерию, оснащенную искусственным интеллектом.

Цель выбора функций — повысить производительность модели машинного обучения за счет уменьшения размерности входных данных и удаления ненужных или избыточных функций.

Существует несколько распространенных методов выбора функций.

1.Методы фильтрации

Метод фильтра использует статистические меры для оценки релевантности функций независимо от любого алгоритма машинного обучения. Он предполагает ранжирование признаков на основе их индивидуальных особенностей. Общие статистические меры, используемые в методе фильтра, включают корреляцию, получение информации и тесты хи-квадрат. Функции выбираются на основе заранее определенных пороговых значений или путем выбора топ-k функций с самым высоким рейтингом.

2. Метод-обертка.

Этот процесс выбора функций основан на конкретном алгоритме машинного обучения, который мы пытаемся применить к заданному набору данных. Он следует подходу жадного поиска, оценивая все возможные комбинации признаков по критерию оценки. Методы-оболочки обычно обеспечивают более высокую точность прогнозирования, чем методы фильтрации. Он рассматривает выбор функций как задачу поиска, исследуя различные подмножества функций и выбирая тот, который дает наилучшую производительность модели. Методы-оболочки требуют больших вычислительных затрат, но могут фиксировать взаимодействие функций и обеспечивать точные прогнозы.

В методах оболочки есть 3 метода:

а. Прямой выбор. Прямой выбор — это итеративный метод, при котором мы начинаем с отсутствия признаков в модели. На каждой итерации мы продолжаем добавлять функцию, которая лучше всего улучшает нашу модель, пока добавление новой переменной не улучшит производительность модели.

б. Обратное исключение. При обратном исключении мы начинаем со всех функций и удаляем наименее значимые функции на каждой итерации, что повышает производительность модели. Мы повторяем это до тех пор, пока не будет наблюдаться улучшение при удалении функций.

в. RFE [Рекурсивное устранение признаков]: используется для выбора признаков. Он исключает признак, имеющий наименьший коэффициент. Он неоднократно создает модели и на каждой итерации откладывает лучшие или худшие функции. Он создает следующую модель с оставшимися функциями, пока все функции не будут исчерпаны. Затем он ранжирует функции в зависимости от порядка их исключения.

Представьте себе задачу классификации спама в электронной почте. Метод оболочки можно использовать для обучения и оценки модели на основе различных комбинаций функций, таких как частота слов, длина электронного письма, репутация отправителя и наличие вложений. Подмножество функций, которое обеспечивает наибольшую точность или наименьшую частоту ошибок, выбирается в качестве оптимального подмножества функций.

3. Встроенный метод

Эти методы сочетают в себе преимущества методов-оболочек и фильтров, включая взаимодействие функций.

Встроенные методы выполняют выбор функций как неотъемлемую часть алгоритма машинного обучения. Эти методы выбирают функции во время обучения модели, учитывая их важность в процессе обучения. Такие методы, как регуляризация, деревья решений и повышение градиента, по своей сути выполняют выбор функций путем присвоения весов или оценок важности функциям во время обучения.

Регуляризация лассо заключается в добавлении штрафов к различным параметрам модели машинного обучения, чтобы уменьшить свободу модели, т. е. избежать переобучения. Штрафной член способствует выбору признаков за счет уменьшения коэффициентов до нуля. Установив некоторые коэффициенты равными нулю, Лассо эффективно выполняет выбор функций, исключая эти функции из модели. Это свойство делает Lasso особенно полезным при работе с многомерными наборами данных, где может иметь значение только подмножество функций.

Способность модели Лассо устанавливать коэффициенты равными нулю позволяет автоматически выбирать функции и может быть полезна в ситуациях, когда необходимо определить редкий набор влиятельных функций.

Предположим, вы работаете над задачей прогнозирования цен на жилье и у вас есть набор данных с множеством функций, таких как количество комнат, площадь в квадратных метрах, местоположение и различные удобства. Применяя регрессию Лассо, вы можете определить, какие функции оказывают наиболее существенное влияние на цены на жилье.

Например, после обучения модели регрессии Лассо вы можете обнаружить, что количество комнат, площадь в квадратных метрах и местоположение являются наиболее влиятельными характеристиками, в то время как другие характеристики, такие как удобства, имеют коэффициенты, близкие к нулю. Это указывает на то, что удобства мало влияют на цены на жилье и могут быть исключены из модели.

Функция feature_importances_ в Random Forest помогает определить, какие функции наиболее важны в процессе принятия решений модели Random Forest.

В контексте выбора функций функция Feature_importances_ может определять выбор наиболее подходящих функций для модели случайного леса. Изучая функцию_важности_, ​​вы можете определить функции, которые в наибольшей степени способствуют прогнозирующей способности модели. Эта информация может помочь вам сосредоточиться на наиболее информативных функциях и потенциально отказаться от менее важных.

Вы можете использовать функцию Feature_importances_ из модели случайного леса, чтобы выбрать топ-K наиболее важных функций. Сортируя функции по их важности в порядке убывания, вы можете выбрать K функций с наибольшей важностью и отбросить остальные.

Мы видим, что после использования Feature_importances_ важность функций отличается от метода получения информации.

4. Гибридный метод

Гибридный метод сочетает в себе методы выбора признаков с методами уменьшения размерности, такими как анализ главных компонентов (PCA) и разложение по сингулярным значениям (SVD). Эти методы преобразуют исходные функции в новый набор некоррелированных переменных (главных компонентов), сохраняя при этом большую часть информации. Путем выбора топ-k главных компонентов одновременно достигается выбор признаков и уменьшение размерности.

Допустим, вы работаете над системой распознавания лиц. Гибридный метод можно использовать, применяя PCA для извлечения наиболее важных черт лица (например, глаз, носа и рта) из большого набора необработанных пиксельных данных. Выбирая топ-k главных компонентов, вы уменьшаете размерность и сохраняете наиболее отличительные черты лица для точного распознавания.

Вывод:

Выбор признаков — важнейший шаг в машинном обучении, позволяющий улучшить производительность модели, снизить сложность и улучшить интерпретируемость. Выбрав только наиболее актуальные и понятные функции (например, погодные условия), мы можем создать упрощенные и более точные модели машинного обучения. Достижение успеха в жизни можно сравнить с выбором функций, поскольку оно включает в себя признание и расстановку приоритетов своих ключевых сильных сторон, эффективное управление своим временем и энергией, инвестирование в личностный рост и обучение, а также окружение себя поддерживающим влиянием.