Пространственная геометрия вашего набора данных является плюсом для решения задач классификации.

Здесь я буду говорить о проблемах классификации.

Приложив много терпения и преданности делу, вы подготовили замечательный тренировочный набор. Пришло время накормить им свой любимый алгоритм и надеяться на лучшее.

Подожди одну секунду. Если мы сделаем шаг назад в этом подходе, мы собрали вместе различные данные, одна из которых является прогнозируемым значением.

Фактически, мы надеемся, что набор данных (предикторы) сможет сделать эффективный прогноз на основе сестринских данных (прогнозируемое значение).

Я бы сказал, что мы «принуждаем» природу в этом движении; Я имею в виду, что этот набор данных, возможно, вовсе не самый эффективный для прогнозирования прогнозируемого значения, к которому мы стремимся. Пусть этот набор данных покажет нам его геометрию и поделится с нами своими знаниями.

Это небольшой шаг, который всегда стоит того: он может оказаться полезным, когда дело доходит до решения нашей первоначальной проблемы классификации; это также может быть запасное решение, которым всегда полезно поделиться с отделом, который спонсировал проект.

1. Удаление прогнозируемого значения из нашего набора данных

Я хочу иметь достоверное представление о том, для чего предназначен мой набор данных. Следовательно, я не хочу испортить свою картинку чем-то неестественным в ней, а именно значением (фактически классом), которое нужно будет предсказать позже. Удалим этот столбец прогнозируемого значения из набора!

2. пусть геометрия набора данных говорит сама за себя

Теперь, когда ваш набор данных свободен от «неестественного» прогнозируемого значения, которое вы имели в виду, давайте выразим геометрию данных через операцию кластеризации.

Первым шагом, конечно же, является масштабирование вашего набора данных, чтобы не утяжелять геометрию ваших данных.

Второй шаг - сделать кривую локтя и анализ силуэта для этого набора данных:

  • Создание изгиба изгиба (Scikit-Learn - замечательная библиотека для всей этой работы) - это эвристический метод определения того, какое количество кластеров будет наиболее репрезентативным для набора данных. «Колено» на самом деле является точкой на приведенной ниже кривой, где наклон «ломан». Кривая колена показывает количество кластеров, которые имели бы больший смысл в геометрической перспективе (ниже вы можете видеть, что 2 кластера имеют смысл)

  • Анализ силуэта подтверждает, что кластеризация будет отображать отличительные черты от кластера к другому. Значение коэффициента (пунктирная линия) помогает определить степень сплоченности кластера: чем больше, тем лучше.

3. Время кластеризации

Благодаря изогнутой кривой вы знаете количество кластеров, наиболее подходящих для вашего набора данных. Пришло время запустить выбранный вами алгоритм кластеризации и, следовательно, иметь возможность присвоить класс кластера каждой из ваших точек.

4. Если вы хотите разобраться в своем наборе данных, сейчас самое время сделать следующее:

У вас есть набор данных + кластерный класс каждой точки: помните, что здесь нет вмешательства человека, так как это происходит без присмотра.

Уловка состоит в том, чтобы использовать выбранный вами алгоритм классификации, чтобы объяснить, что на самом деле обнаружил алгоритм кластеризации.

  • Мой первый шаг - использовать алгоритм классификации для определения наиболее важных переменных, управляющих кластеризацией:

  • Я всегда проверяю точность моего алгоритма классификации на прогнозах, сделанных кластеризацией: если вы выбрали правильное количество кластеров (значение изгиба) и у вас есть шанс иметь отличительные кластеры, вы можете увидеть благодаря своей матрице путаницы отличный точность и отзывчивость - это означает, что естественный наклон набора данных состоит в том, чтобы придерживаться его геометрических характеристик и предсказывать с большей точностью то, что он естественным образом представляет, а не то, что мы просим его предсказать ... (подробнее об этом позже)
  • Полезным ходом также является запуск основного дерева решений по наиболее важным функциям, чтобы показать, как происходит разделение функций между классами.

5. Используя свои выводы:

Очень важно поделиться знаниями об обнаруженных вами кластерах и их особенностях со спонсорами вашего проекта: это очень ценная информация для всех служб маркетинга, продаж или других услуг, поскольку они могут не знать, что их клиенты или (другие data) перегруппировываются по таким характерным линиям. Компания может даже дать вам новую полезную информацию, когда осознает масштабы этого результата.

Конечно, вы также можете использовать эти кластеры как спроектированную функцию для использования в качестве новых входных данных в вашей задаче классификации: они вносят в вашу модель подлинную геометрию вашего набора данных в пространстве.

Не стесняйтесь уточнить, если вы уже использовали подобный прием!