Стек специалиста по данным для улучшения упрямых моделей машинного обучения
Эта статья представляет собой одну из двух частей, документирующих мои знания из моей дипломной работы по машинному обучению в Spotify. Обязательно ознакомьтесь со второй статьей о том, как я реализовал важность функций в этом исследовании.
В 2021 году я потратил 8 месяцев на создание прогнозной модели для измерения удовлетворенности пользователей в рамках своей дипломной работы в Spotify.
Моей целью было понять, что заставляет пользователей удовлетворены музыкой. Для этого я создал классификатор LightGBM, вывод которого представлял собой двоичный ответ:
y = 1 → пользователь, похоже, доволен
y = 0 → не очень
Предсказать человеческую удовлетворенность — непростая задача, поскольку люди по определению неудовлетворены. Даже машина не способна разгадать тайны человеческой психики. Поэтому, естественно, моя модель была настолько сбита с толку, насколько это возможно.
От человека-предсказателя до гадалки
Моя оценка точности составила около 0,5, что является наихудшим результатом, который можно получить с помощью классификатора. Это означает, что алгоритм имеет 50%-ную вероятность предсказать «да» или «нет», и это так же случайно, как человеческое предположение.
Итак, я потратил 2 месяца, пытаясь объединить различные методы, чтобы улучшить прогнозирование моей модели. В конце концов мне наконец удалось улучшить свой показатель ROC с 0,5 до 0,73, что стало большим успехом!
В этом посте я поделюсь с вами методами, которые использовал для значительного повышения точности моей модели. Эта статья может пригодиться, когда вы имеете дело с моделями, которые просто не взаимодействуют.
По причине конфиденциальности этого исследования я не могу разглашать конфиденциальную информацию, но сделаю все возможное, чтобы она не звучала запутанно.