Занять первое место в таблице лидеров Kaggle по дороге домой

В Firefly я веду разработку алгоритмов для нашей платформы AutoML. Я думаю, что мы придумываем разумный подход, но я пристрастен. Таким образом, время от времени наше программное обеспечение соревнуется в реальных задачах, стоящих перед сообществом машинного обучения.

Я попробовал нашу платформу AutoML для решения задачи Kaggle Удовлетворенность клиентов Santander. Банк Santander попросил конкурентов Kaggle предсказать недовольство клиентов. Это было одно из самых популярных соревнований за последние несколько лет, в котором в таблице лидеров участвовали 5123 команды.

Мы хотели, чтобы наша платформа доказала свою ценность, а не доказала, что мы большие специалисты по данным. Это означает, что мы выполняем минимальную ручную работу, если вообще делаем это. Тот факт, что я столкнулся с кучей моих основных работ, только укрепил это мнение.

Итак, для этого конкурса - я решил подготовить данные для системы перед тем, как пойти домой, дать системе попотеть ночью и представить прогнозы утром. Двухчасовая поездка домой добавила мне мотивации сделать это как можно быстрее.

Итак, я загрузил данные поезда - 76000 образцов с 370 анонимными функциями - которые я отправил в Firefly Lab, которая отвечает за поиск и обучение наилучшей возможной модели.

Это заняло у меня около пяти минут. Еще пять минут система потратила на автоматический анализ набора данных. Просмотр результатов анализа занял бы целую рабочую неделю, поскольку 370 функций - это слишком много, поэтому я доверяю системе.

Затем я провел последние пять минут своего рабочего дня, настраивая параметры для поиска модели. Я мог бы использовать значения по умолчанию, но, в конце концов, это было соревнование. Поэтому я потратил пару минут на то, чтобы возиться с расширенными настройками пользовательского интерфейса, чтобы убедиться, что у программного обеспечения будет свободное управление - я увеличил запланированное время до ночи (12 часов), позволил обучить до 500 моделей и ограничил ансамбль до 100 моделей. .

Затем я нажал кнопку «Выполнить» и предоставил Firefly Lab автоматический поиск лучших параметров и предикторов. У меня же была расслабляющая прогулка до вокзала.

На следующее утро я заметил, что мои расширенные настройки были несколько преувеличены. Я мог бы остановить его через полчаса и получить почти такие же результаты. Вместо этого, без меня, он продолжал работать и постепенно улучшал результаты.

Всего обучено 312 моделей. На основе этих моделей был построен ансамбль для дальнейшего увеличения предсказательной силы. В этом случае золотой ансамбль состоял из четырех моделей случайного леса и одной модели повышения градиента.

Присмотревшись повнимательнее, я смог увидеть детали моделей, выбранных Firefly Lab - использовалась ли автоматическая очистка данных, какой метод вменения работал лучше всего, какие инженерные функции были добавлены и был ли выбор функций необходим.

Затем я потратил пять минут на отправку Kaggle - загрузку тестовых данных, загрузку прогнозов, создание файла отправки в правильном формате и загрузку его на веб-сайт Kaggle.

Результаты меня удивили, и я понял, что опоздал на два года.

Оценка AUC в 83,418% превысила результат победителя Kaggle… на то же значение, на которое победитель обогнал 2734-ю запись.

В целом это заняло у меня 20 минут. С первой попытки.

Занять первое место в таблице лидеров Kaggle по дороге домой

Вопросы по теме