Как я совершил большой прыжок с минимальными усилиями в таблице лидеров испытаний Kaggle Titanic, используя удаление микровыбросов

Я испытал нечто удивительное. Я поднялся на 8000 позиций в таблице лидеров Kaggle Titanic Competition всего за несколько попыток и за 10 минут.

А вот еще удивительная новость. Я сделал это с минимальными усилиями. Я не занимался фиче-инжинирингом. Я не заполнил недостающие значения. Я использовал только несколько колонок. Я не использовал какой-либо сложный алгоритм машинного обучения. Простое простое дерево решений.

В этой истории я расскажу вам о магической технике, благодаря которой это произошло.

На момент моего последнего представления я занимал 4057 место из 14404 команд (в топ-30%).

Цель этой истории не в том, чтобы разработать лучшую модель, а в том, как подняться в таблице лидеров с минимальными усилиями.

До применения магической техники — ранг 12616

После применения магической техники — ранг 4057! Вау!

Позвольте мне ввести термин для техники, которую я использовал

Удаление микровыбросов

Вуаля, термин звучит хорошо. Этого термина еще не существует. Если вы читаете эту статью, то, возможно, впервые встречаете этот термин.

Мотивация метода удаления микровыбросов

Несмотря на то, что у нас есть много методов улучшения моделей машинного обучения, иногда возникает ощущение, что чего-то не хватает. Вы можете сказать, что у нас есть все — оптимизация гиперпараметров, поиск по сетке и даже автомлирование. Так чего же на земле может не хватать?

Что ж, для меня отсутствует визуальный подход, основанный на интуиции. Дополнение всех методов оптимизации машинного обучения визуальным подходом, основанным на интуиции, действительно может дать вам преимущество, выходящее за рамки обычного.

Итак, давайте посмотрим, как выглядит микровыброс.

Обнаружение микровыбросов

Во-первых, вот некоторая справочная информация об обучении модели на данных Титаника, которую я использовал. Чтобы все было просто,

  • Я взял только следующие поля как есть: PClass, Sex, SibSp, Parch, Fare, Embarked.
  • Поле age не берется, так как содержит много пропущенного значения.
  • Отсутствует разработка функций
  • Используемый алгоритм машинного обучения представляет собой базовое 5-уровневое дерево решений с разделением 70–30 обучающих тестов.

Здесь показана граница решения, основанная на наборе данных поезда и алгоритме дерева решений. Легенда на диаграмме ниже указывает на значение цветов на рисунке ниже.

Мы можем сделать следующие наблюдения:

Поверхность решений, предсказывающая выживание (зеленая область), в основном расположена посередине. Поверхность решения, предсказывающая невыживание (красная область), в основном расположена по бокам.

Как правило, пассажиры, которые не выжили (синие точки), группируются вместе. Точно так же выжившие пассажиры (зеленые точки) группируются вместе.

Визуально микровыбросы можно определить следующим образом:

  • выжившие в группе невыживших
  • невыжившие в группе выживших

На рисунке ниже показаны микровыбросы, отмеченные белой стрелкой.

Теперь давайте проанализируем микровыбросы.

Анализ микровыбросов

Чтобы лучше понять микровыбросы, давайте проанализируем микровыброс, расположенный в левом верхнем углу. Визуальный способ анализа показан на анимированном изображении ниже. Он показывает радарную диаграмму для столбцов для каждой точки, когда мы наводим курсор на точку.

Вы заметите, что все точки связаны с пассажирами мужского пола, имеющими высокий PCLass (что означает 3-й класс), и теми, кто высадился из порта S. Все эти пассажиры не выжили, за исключением точки микровыброса.

Микровыброс здесь — пассажир Юджин Патрик Дейли. О том, как он выжил, можно прочитать по ссылке здесь

Он был пассажиром 3-го класса на нижних палубах и прыгнул в холодную воду. У него не было шансов выжить. Однако он утверждал, что толщина его пальто была связана с его выживанием, предмет одежды, который он носил много лет и который он назвал своим «счастливым пальто».

Хоть мы и рады за него, он не годится для машинного обучения! Люди, которые, к счастью, выжили по каким-то непонятным причинам, таким как толщина пальто, являются исключениями, которые портят модель машинного обучения. Нет у нас и особенностей того, кто прыгнул, и толщины шинели на каждого пассажира. Поэтому лучше всего удалить его из обучающих данных.

Визуальная техника микровыбросов автоматически идентифицирует таких «счастливчиков» в титанических данных! Вы не сможете сделать это ни с одним из классических алгоритмов обнаружения выбросов.

Я удалил 6 микровыбросов, обучил модель и отправил заявку. Был большой подъем в таблице лидеров по сравнению с подчинением без техники микровыбросов.

Заключение

Удаление микровыбросов — это хороший визуальный подход, основанный на интуиции, для повышения точности вашей модели машинного обучения без большого количества сложного кодирования. В некотором смысле мы удаляем точки данных, которые могут излишне усложнять модель, и, таким образом, повышаем общую точность модели.

Пожалуйста, подпишитесь, чтобы быть в курсе, когда я публикую новую историю.



Вы также можете присоединиться к Medium по моей реферальной ссылке.



Дополнительные ресурсы

Веб-сайт

Вы можете посетить мой сайт, чтобы сделать аналитику с нулевым кодированием. https://experiencedatascience.com

YouTube канал

Вот ссылка на мой канал на YouTube
https://www.youtube.com/c/DataScienceDemonstrated