Деревья решений не так интерпретируемы, как вы думаете

Деревья решений считаются легко интерпретируемыми, но всегда ли интерпретация точна?

Деревья решений часто называют одним из наиболее интерпретируемых алгоритмов машинного обучения. Такие пионеры, как Брейман, описывали деревья решений как воплощение интерпретируемости (хотя изобретатель C&RT мог быть предвзятым), а в последнее время деревья решений стали использоваться как метод интерпретации других моделей. Однако может случиться так, что деревья решений не так интерпретируемы, как кажется на первый взгляд — конечно, если деревья решений интерпретируемы, есть предостережения, которые необходимо соблюдать.

Чтобы понять, где лежат эти ограничения, сначала давайте рассмотрим, как работают деревья решений в самом общем смысле. Данные разбиваются на разные узлы, которые представляют собой либо действительные числа на основе метрики, что означает, что данные в новых разделах максимально различны, но также и максимально похожи внутри разделов - то есть «чистота» узлов увеличивается с каждым расколоть. Таким образом, для дерева классификации, обученного с использованием двоичной цели, разделение будет производиться так, чтобы разделы находились в одном или другом из возможных состояний, используя разные метрики для измерения этой чистоты.

Первая проблема с интерпретацией деревьев решений заключается в том, что уже после нескольких слоев результат становится зависимым от того, что было раньше. Фактически, когда вы разделяете переменные A, B и C и переходите к следующему разделению, вы не смотрите на изолированный эффект переменной D — вы смотрите на влияние условной переменной на предыдущие значения A, B и C. По сути, в разделениях заложено определенное взаимодействие.

Это одна из причин, по которой ансамбли мелких деревьев, такие как Random Forest и GBM, работают так хорошо — за счет создания нескольких мелких деревьев, в которых переменные появляются на разных этапах, и агрегирования результатов. Сочетание мелкой глубины деревьев и переменных, появляющихся на разных стадиях, означает, что эффект взаимодействия приглушен.

Эта проблема усугубляется, когда алгоритм разделения дерева следует жадному подходу сверху вниз, при котором данные разбиваются на более мелкие разделы в соответствии с достижением оптимальной разницы в соответствии с информационным критерием, используемым при каждом разделении. Жадный алгоритм…