[Кадр дня ML]: дискретизация непрерывных атрибутов

Обработка непрерывных оцененных атрибутов в деревьях решений

Выбор оптимальной точки разделения для непрерывных атрибутов в деревьях решений

Ускоренный курс по деревьям решений и мерам разделения:

  • Деревья решений и их варианты, случайные леса, XGBoost, CatBoost широко используются в мире машинного обучения (включая соревнования).
  • Обучение дерева решений для задачи классификации включает рекурсивное разделение данных на более мелкие подмножества до тех пор, пока каждый узел не будет содержать данные, принадлежащие одному классу.
  • Для определения наилучшего возможного разделения в каждом узле дерева решений используются различные меры (информационный прирост, индекс Джини, коэффициент прироста).

Меры разделения для выращивания деревьев решений:

  • Рекурсивное выращивание дерева включает выбор атрибута и условия проверки, при котором данные в данном узле делятся на меньшие, но чистые подмножества.
  • Меры, используемые для определения наилучшего разделения, вычисляют степень загрязненности дочерних узлов.
  • Вычисление чистоты дочерних узлов по отношению к родительским узлам называется усилением. Чем выше коэффициент усиления (G), тем лучше разделение.
  • Пусть pₖ будет долей записей, принадлежащих классу k в данном узле. Меры примеси даются:

  • Прирост рассчитывается как:

Любопытный случай непрерывных атрибутов:

Можно видеть, что вычисление мер разделения предполагает конечные (читай: дискретные) значения атрибутов. Возникает вопрос: Как атрибуты с непрерывным значением обрабатываются в деревьях решений?

Найдите время, чтобы подумать об этом (но ненадолго ... это выстрел ML)

Условие проверки для атрибута с непрерывным значением может быть выражено с помощью оператора сравнения (≥, ≤) или атрибут может быть разделен на конечный набор сегментов диапазона. Важно отметить, что условие проверки на основе сравнения дает нам двоичное разбиение, тогда как сегменты диапазона дают нам многостороннее разбиение.

Преобразование атрибута с непрерывным значением в категориальный атрибут (многостороннее разбиение):

  • Подход одинаковой ширины преобразует непрерывные точки данных в n категории, каждая из которых имеет одинаковую ширину. Например, атрибут с непрерывными значениями в диапазоне 0–50 может быть преобразован в 5 категорий равной ширины - [0–10), [10–20), [20–30), [30–40), [ 40–50]. Количество категорий - гиперпараметр.
  • Важно отметить, что подход равной ширины чувствителен к выбросам.
  • Подход равной частоты преобразует атрибут с непрерывным значением в n категории, так что каждая категория содержит примерно одинаковое количество точек данных.
  • Более сложные методы включают использование алгоритмов неконтролируемой кластеризации для определения оптимальных категорий.

Преобразование атрибута с непрерывным значением в двоичный атрибут (двустороннее разделение):

  • Условие проверки баз сравнения в форме attribute >= v включает определение v.
  • Легко видеть, что подход грубой силы к проверке каждого отдельного значения непрерывной переменной требует больших вычислительных ресурсов.
  • Лучший способ определить кандидатов на разбиение - это отсортировать значения непрерывного атрибута и взять среднюю точку соседних значений в отсортированном массиве.
  • Как видно на рисунке ниже, потенциальных кандидатов на разделение можно сузить до -15, -9, 0, 12 и 21.

  • Очевидно, что количество кандидатов после взятия средней точки отсортированного массива все еще может быть дорогостоящим в вычислительном отношении.
  • Более оптимизированная версия включает выбор кандидатов в средние точки с разными метками класса. Это сузит количество кандидатов до -9 и 12, что является значительным улучшением по сравнению с методом грубой силы.

Последние мысли:

  • Область AI / ML / DS развивается невероятными темпами. Цель снимков ML - охватить некоторые хитрые концепции, которые часто игнорируются.
  • Обращайтесь ко мне, если у вас есть идеи для снимков ML.

Давай поговорим:

Свяжитесь со мной в Linkedin, чтобы обсудить идеи.