Стек специалиста по данным для улучшения упрямых моделей машинного обучения

Эта статья представляет собой одну из двух частей, документирующих мои знания из моей дипломной работы по машинному обучению в Spotify. Обязательно ознакомьтесь со второй статьей о том, как я реализовал важность функций в этом исследовании.



В 2021 году я потратил 8 месяцев на создание прогнозной модели для измерения удовлетворенности пользователей в рамках своей дипломной работы в Spotify.

Моей целью было понять, что заставляет пользователей удовлетворены музыкой. Для этого я создал классификатор LightGBM, вывод которого представлял собой двоичный ответ:
y = 1 → пользователь, похоже, доволен
y = 0 → не очень

Предсказать человеческую удовлетворенность — непростая задача, поскольку люди по определению неудовлетворены. Даже машина не способна разгадать тайны человеческой психики. Поэтому, естественно, моя модель была настолько сбита с толку, насколько это возможно.

От человека-предсказателя до гадалки

Моя оценка точности составила около 0,5, что является наихудшим результатом, который можно получить с помощью классификатора. Это означает, что алгоритм имеет 50%-ную вероятность предсказать «да» или «нет», и это так же случайно, как человеческое предположение.

Итак, я потратил 2 месяца, пытаясь объединить различные методы, чтобы улучшить прогнозирование моей модели. В конце концов мне наконец удалось улучшить свой показатель ROC с 0,5 до 0,73, что стало большим успехом!

В этом посте я поделюсь с вами методами, которые использовал для значительного повышения точности моей модели. Эта статья может пригодиться, когда вы имеете дело с моделями, которые просто не взаимодействуют.

По причине конфиденциальности этого исследования я не могу разглашать конфиденциальную информацию, но сделаю все возможное, чтобы она не звучала запутанно.

#0. Подготовка данных