Ro Data Sip-and-Share Q1 2019

Выбор функций или их отсечение - очень важный шаг в конвейере построения хорошей модели прогнозирования и понимания связей между функциями и целью. Выбор функций преследует две цели: 1. выявить и удалить элементы с небольшой или отсутствующей предсказуемостью цели, чтобы предотвратить переоснащение, и 2. выявить сильно коррелированные или избыточные функции и подавить негативное влияние на модель без потери важной информации. . Здесь я рассмотрю следующие подходы к выбору функций в контексте линейной и логистической регрессии:

  1. Статистические выводы
  2. Жадный поиск
  3. Регуляризация

Статистический вывод

Подход статистического вывода оценивает стандартную ошибку коэффициентов регрессионной модели, а затем строит доверительный интервал и p-значение, чтобы проверить, существенно ли отличаются коэффициенты от 0. Если нулевая гипотеза о нулевом коэффициенте отклоняется с малым p -value, это означает, что эта функция действительно влияет на цель.

Подробный вывод статистического вывода коэффициентов стандартной ошибки можно найти в этой статье для линейной регрессии и в этой статье для логистической регрессии. Здесь я представлю только общие концепции этого вывода и практические шаги для получения результатов. Согласно центральной предельной теореме, приблизительное распределение коэффициентов является нормальным распределением для большого размера выборки:

Хотя оцененный коэффициент приближается к истинному значению β, ключом к определению этого распределения является оценка стандартного отклонения (σ) коэффициента. Это значение можно рассматривать как меру точности коэффициента: если стандартная ошибка становится больше по сравнению с коэффициентом, доверительный интервал становится шире, и мы менее уверены в том, где находится истинное значение.

Стандартная ошибка коэффициентов модели может быть вычислена как квадратный корень из диагональных элементов ковариационной матрицы. В Python расчет стандартной ошибки коэффициентов доступен в библиотеке statsmodels, которая также предоставляет ряд статистических показателей, помогающих сделать вывод.

Статистический подход оценивает стандартные ошибки коэффициентов регрессии, которые служат прямым показателем для оценки связи между функциями и целью. Однако удаление функций на основе результатов теста значимости не рекомендуется, потому что некоторые функции могут не иметь значения в статистическом тесте, но все же обладают определенной способностью предсказывать цель, а удаление этих функций часто приводит к потере всей информации.

Жадный поиск

По сравнению со статистическим подходом, метод жадного поиска более практичен и больше подходит для инженерии машинного обучения. Общая идея жадного поиска заключается в создании моделей с различными комбинациями функций и сужении подмножеств функций с оптимальной производительностью модели. Есть несколько изменений стратегии жадного поиска, и здесь я остановлюсь на двух из них.

Одномерный выбор

Одномерный отбор - самый простой подход среди жадных методов поиска. Он оценивает, насколько хороша функция, оценивая ее прогностическую ценность, взятую отдельно в отношении ответа, и удаляет функции, которые плохо работают в тесте. Этот метод лучше всего подходит для наборов данных, которые имеют большую часть избыточных функций (например, набор данных Madelon) в качестве начального процесса сокращения.

Рекурсивное исключение

Рекурсивное исключение запускает процесс выбора признаков в обратном порядке с полным пространством признаков. На каждой итерации удаляется случайный признак и переоценивается производительность модели. Если удаление элемента оказывает незначительное влияние на модель, его можно безопасно обрезать. Этот процесс останавливается, когда дальнейшее удаление ухудшает предсказуемость модели.

Регуляризация

Регуляризация - это еще один способ выявления и изменения важных функций для предотвращения переобучения, но без активного удаления каких-либо функций из исходного набора данных. Чтобы минимизировать влияние бессмысленных и коррелированных функций на модель, регуляризация сокращает коэффициенты этих функций, чтобы они не влияли на результаты прогнозирования. Эта цель достигается добавлением штрафов за коэффициенты к потерянной функции.

Регуляризация дихотомии делится на две отдельные ветви в зависимости от того, как штрафуются коэффициенты. Если регуляризация ухудшает абсолютное значение коэффициентов (норма L1), тогда алгоритм называется регуляризацией L1 или регрессией Лассо. Если при регуляризации штрафуется сумма квадратов коэффициентов (норма L2), алгоритм называется регуляризацией L2 или регрессией Риджа.

Небольшая разница в сроке штрафа приводит к совершенно разному поведению этих двух алгоритмов регуляризации. В частности, регуляризация L1 может присваивать коэффициент признака нулю и, следовательно, устранять все влияние этой особенности, в то время как регуляризация L2 присваивает небольшой коэффициент незначительному признаку.

Диаграмма выше часто используется, чтобы проиллюстрировать, почему регуляризация L1 может иметь нулевой коэффициент в двумерной установке. Зеленая область представляет рабочую область коэффициентов, которая по-разному формируется из-за члена штрафа за коэффициент, а красные эллипсы очерчивают выпуклость исходной потерянной функции. Оптимальное решение регуляризованной регрессии - это первая точка, в которой рабочая область пересекает выпуклость. Регрессия лассо (слева) имеет область ограничения в форме ромба с углами на каждой из осей, что позволяет пересекать потерянную функцию по одной оси, а коэффициент на другой оси равен нулю. Напротив, регрессия гребня (справа) имеет круговую необязательную область без острых углов, и это значительно снижает вероятность пересечения на оси. Для более подробного объяснения, пожалуйста, обратитесь к этой статье.

Таким образом, регуляризация L1 или регрессия Лассо часто используется в качестве метода для выбора признаков из-за его способности назначать ноль в качестве коэффициентов признаков. Другие варианты регуляризации, включая регрессию наименьшего угла (LARS) и эластичную сеть, также могут использоваться для сокращения функций, но все они имеют свой собственный набор достоинств и ограничений.

Здесь я рассмотрел некоторые часто используемые методы выбора функций, которые определяют функции, которые либо не обладают предсказуемой мощностью по отношению к цели, либо сильно коррелируют с другими функциями. Существуют и другие способы извлечения информации из набора данных, такие как определение порогового значения дисперсии признаков и применение анализа основных компонентов (PCA) для уменьшения размеров в пространстве признаков. Однако не существует решения, которое могло бы удовлетворить все проблемы. Чаще всего выбор функций - это довольно итеративный процесс, и каждый шаг имеет уникальные цели сокращения. Следовательно, важно понимать, как каждый алгоритм подходит для разных сценариев, чтобы достичь идеальных результатов.