Знакомство с проблемой

Конкурс проводится на HackerEarth.

Всемирный день психического здоровья отмечается ежегодно 10 октября. Цель этого дня - повысить осведомленность о проблемах психического здоровья во всем мире и мобилизовать усилия в поддержку психического здоровья. Согласно анонимному опросу, около 450 миллионов человек живут с психическими расстройствами, которые могут быть одной из основных причин плохого здоровья и инвалидности во всем мире.
Вы инженер по машинному обучению в компании. Вам дается задача понять и наблюдать за психическим здоровьем всех сотрудников вашей компании. Следовательно, вы должны прогнозировать уровень выгорания сотрудников на основе предоставленных функций, тем самым помогая компании принимать соответствующие меры для своих сотрудников.

Задача конкурса сформулирована как задача регрессии, метрика оценки - r2_score. Обучающий набор состоит из (22750 x 9), а тестовый набор состоит из (12250 x 8) формы для прогнозирования скорости выгорания (цель)

EDA (исследовательский анализ данных)

Данные исследуются для проверки наблюдения данных (строки) и функций (столбцы). Данные состоят как из категориальных, так и из числовых характеристик, в то время как большинство категориальных характеристик имеют низкую мощность. По моим наблюдениям, в нашем наборе данных отсутствовали значения, и, к моему удивлению, целевая переменная (показатель сжигания калорий).

Предварительная обработка данных и разработка функций

Я отбрасываю недостающие значения с подмножеством столбцов, отсутствующих в обучающих данных и не отсутствующих в тестовых данных, т.е. я удалил наблюдения, которые отсутствовали в строках в выбранных столбцах.

Я преобразовал категориальные функции, используя горячую кодировку для бессмысленных функций ранжирования (пол и тип компании) и использовал порядковое кодирование для значимых функций ранжирования (доступна настройка WFH).

Я заметил выбросы в некоторых числовых переменных, и я попытался поэкспериментировать с этим, и не улучшил свою общедоступную оценку, мне пришлось оставить ее (хотя личная оценка могла бы улучшиться). Числовые функции используются без дополнительной предварительной обработки.

Формат даты и времени также присутствует в функциях, которые я удалил без создания функций DateTime. Это сделано из-за факта описания переменной, исходя из моего анализа, было бы очень неправильной идеей использовать дату присоединения к компании для прогнозирования степени выгорания сотрудника. Это одно из преимуществ анализа и любопытства специалиста по обработке данных, чтобы знать, когда добавлять или удалять функцию. Feature Engineering - это не только создание дополнительных функций, это больше искусство, чем наука.

Я наблюдал из своей базовой модели с большинством важных функций и перегруппировал столбцы на основе графика (это дает небольшое улучшение моей модели).

Стратегия проверки

Стратегия проверки имеет решающее значение во всех задачах, связанных с данными, особенно на соревнованиях. в этом сценарии оценки от простой проверки, выполненной kfold, могут дать завышенные предположения о нашем реальном счете и ожидаемом положении в таблице лидеров.

Обученная модель (метод ансамбля)

Я попытался упростить свое решение, используя 1 балл Catboost (93%) и 1 Xgboost (93%), используя 10 разделений перекрестной проверки Kfold с разными случайными начальными числами, чтобы немного повысить оценку модели. Две модели представляют собой ансамбли вместе с использованием метода ансамбля средневзвешенных значений. 65% Catboost и 35% Xgboost, чтобы немного улучшить мою оценку.

Замечание

Конкурентная наука о данных - один из лучших способов изучить науку о данных для новичков и экспертов, она дает возможности для экспериментов, что является одним из основных навыков специалиста по данным.

Основная цель участия в соревнованиях по анализу данных должна заключаться в том, чтобы получить больше возможностей для обучения и расширения вашего портфолио, получение приза является дополнительным преимуществом (на этом хакатоне приз не присуждался).

Информация и контакты

Я специалист по обработке данных в AXA Nigeria.

Twitter - @Nasereliver

Linkedin - Насирудин

Код Github Link - S olution