Мое путешествие на Kaggle’s 30Days of ML Challenge

В течение последних 30 дней (с 2 августа по 02 сентября) каждый день добавлялся немного вкуса машинного обучения, прежде чем был создан замечательный рецепт построения моделей машинного обучения. Расписание было следующим:

Неделя — 1: Курс Python,
Неделя — 2: Курсы ML Foundation и Intermediate,
Неделя — 3 и 4: Конкурс машинного обучения

3-я и 4-я недели были действительно захватывающими, это было похоже на игру в змейку и лестницу в общедоступной таблице лидеров. Поначалу любая модель по умолчанию казалась лучшей по двум причинам:

1. Меньше представленных материалов и
2. Большинство из них являются стандартными или менее настроенными оценками.

Постепенно количество отправленных материалов увеличилось, так же как и обработка данных и настройка моделей!

Почти каждый день мой рейтинг падал на 50–100 позиций, и единственным вопросом, который у меня был, было как мне улучшиться?

Итак, я начал с оптимизации гиперпараметров для XGBRegressor. Это не только позволило мне занять приличную позицию, но и дало возможность изучить лучшие методы оптимизации (я использовал байесовскую оптимизацию с данными, примененными Kfold). К началу 4-й недели я был примерно на уровне 1400/6000 (с настроенными гиперпараметрами xgbR). В этот момент количество заявок и количество баллов быстро росли. Увидев это, я начал искать в Интернете и проходить курсы от INSAID, чтобы попробовать различные методы обработки и моделирования.

Я все еще был голоден и глуп! (Спасибо Стиву Джобсу)

Ролики на YouTube от #Abhishek Thakur помогли мне узнать о взвешенном усреднении результатов, полученных от настроенных моделей, и последующей передаче их на другую модель/модели. Итак, я реализовал этот подход со своими параметрами и на разных моделях.

На 30-й день я добрался до позиции: 442/7573.

Причины, по которым я делюсь своим путешествием:

Построить модель легко, но найти правильные параметры сложно!
Вам просто нужно искать, помощь уже доступна в Интернете.
Подобные задачи не только помогут нам изучить разные концепции, но и быстрее.
Возможность изучить различные подходы к работе с данными.

Спасибо:

Kaggle Team за организацию такого мероприятия.
INSAID за то, что посеяли семена обучения и сделали обучение интересным.
Абхишек Тхакур за видео с понятным объяснением.

Это мой первый пост на Medium, пожалуйста, помогите и дайте мне ценный отзыв в случае отклонений.

Мое путешествие на Kaggle’s 30Days of ML Challenge

Вопросы по теме