Системы машинного обучения и рекомендаций с использованием ваших собственных данных Spotify

Создание рекомендаций Spotify с помощью науки о данных

Вступление

Как человек, который ежедневно использует Spotify, меня интересовало, какой анализ я мог бы сделать с моими собственными музыкальными данными. Spotify отлично справляется с рекомендациями треков как через ежедневные миксы, так и через радиостанции, но как мы сами создадим что-то подобное? Цель заключалась в том, чтобы использовать машинное обучение и методы системы рекомендаций, чтобы рекомендовать новые треки на основе треков из моих любимых плейлистов.

В этой статье дается более подробный обзор этого проекта. Код и результаты можно найти на GitHub здесь.

Данные Spotify

Любому хорошему проекту в области науки о данных сначала нужны данные, причем в большом количестве.

Доступ к Spotify API

Чтобы начать работу с нашими музыкальными данными, нам сначала нужно получить доступ к Spotify API:

Создайте учетную запись Spotify для разработчиков
Из панели управления настройте проект (необходим для доступа к API)
Получите идентификатор клиента, секрет клиента и настройте URI перенаправления (в локальных проектах я установил для него значение http: // localhost: 9001 / callback)
Ознакомьтесь с документацией по API.

Музыкальные данные

После настройки учетной записи разработчика мы можем получить доступ к API для извлечения музыкальных данных. Для этого мы можем использовать пакет Python spotipy, которому нужны данные разработчика, которые мы настроили ранее для предоставления разрешений через OAuth.

with open("spotify/spotify_details.yml", 'r') as stream:  
    spotify_details = yaml.safe_load(stream)
# https://developer.spotify.com/web-api/using-scopes/
scope = "user-library-read user-follow-read user-top-read playlist-read-private" 
sp = spotipy.Spotify(auth_manager=SpotifyOAuth(
    client_id=spotify_details['client_id'],
    client_secret=spotify_details['client_secret'],
    redirect_uri=spotify_details['redirect_uri'],    
    scope=scope,)
)

Теперь мы можем извлекать данные из различных источников в нашей библиотеке Spotify. Класс sp имеет функции для этого, такие как sp.current_user_playlists() и sp.current_user_top_tracks(). Из этих вызовов API нам нужно извлечь детали дорожки, такие как уникальный идентификатор, имя, продолжительность и жанры, а также связанные свойства исполнителя, альбома и списка воспроизведения. Я сохранил их как фреймы данных pandas для простоты анализа.

Spotify также может предоставить звуковые функции для трека. Это числовые значения (обычно нормализованные между 0 и 1), которые полезны для анализа, но особенно в качестве функций для традиционных методов машинного обучения.