Мы обсуждаем новый подход к выбору функций из большого набора функций в неконтролируемой среде машинного обучения. В обучении с учителем, таком как линейная регрессия или кластеризация с учителем, можно проверить прогностическую способность набора функций (также называемых статистиками независимыми переменными или предикторами) с использованием таких показателей, как соответствие ответу (зависимая переменная). , например, с использованием коэффициента R-квадрат. Это делает процесс выбора характеристик довольно простым.

Здесь это неосуществимо. Контекстом может быть чистая кластеризация без доступных обучающих наборов, например, в задаче обнаружения мошенничества. Мы также имеем дело с дискретными и непрерывными переменными, возможно, включая фиктивные переменные, которые представляют категории, такие как пол. Мы предполагаем, что никакая простая статистическая модель не объясняет данные, поэтому здесь структура не зависит от моделей и управляется данными. В этом контексте традиционные методы основаны на метриках теории информации, чтобы определить, какое подмножество функций приносит наибольший объем информации.

Классический подход состоит в определении наиболее богатой информацией функции, а затем расширении набора выбранных функций путем добавления новых, которые максимизируют какой-либо критерий. Существует много вариантов этого подхода, например, добавление более одной функции за раз или удаление некоторых функций в ходе итеративного алгоритма выбора функций. Поиск оптимального решения этой комбинаторной задачи неосуществим с вычислительной точки зрения, если число признаков велико, поэтому приближенное решение (локальный оптимум) обычно приемлемо и достаточно точно для деловых целей.

Содержание этой статьи:

  • Обзор популярных методов
  • Новая простая идея для выбора функций
  • Тестирование на наборе данных с известной теоретической энтропией (и выводы)

Читай полную статью здесь".