Сейчас 9:26, и у меня есть немного времени для себя, так почему бы не написать. Сегодня утром я проснулся с приливом энергии и решил разобраться в рекомендательных системах, создав их. Я большой поклонник netflix и всегда удивлялся, почему их рекомендации настолько хороши!

Целью этого является создание простой системы рекомендаций на основе контента на основе набора данных о фильмах.

Данные

Данные, с которыми мы работаем, — это данные IMDMB от kaggle.

Краткое изложение шагов

Импорт библиотек

Очистка данных

Токенизация

Вычислить сходство

Pandas использовался для чтения данных с помощью pd.read_csv, чтобы узнать данные, которые мы читаем.

Понимание набора данных путем печати первых 5 и последних 5 с использованием .head() и .tail()

Понимание типов данных и столбцов, чтобы мы могли понять, нужно ли нам конвертировать данные в соответствии с целью проекта.

Очистка данных

Проверка наличия дубликатов в наборе данных с помощью .duplicated() и отсутствие дубликатов в наборе данных. Проверено на нулевые значения, чтобы наши данные улучшались и очищались.

После проверки в нашем наборе данных ряда нулевых значений, поэтому нам нужно их удалить.

Нулевые значения удаляются с помощью .dropna(), чтобы гарантировать чистоту наших данных.

Токенизация

Работая с текстовыми данными в соответствии с машинным обучением, текст обычно преобразуется в векторы чисел. Для этого проекта я решил использовать «Term Frequency — Inverse Data Frequency» (TF-IDF) для векторизации.

Вычисление подобия

Рассчитайте сходство между каждым фильмом, используя библиотеку sklearn.metrics.pairwise library.

Вычислить косинусное сходство с помощью функции .cosine_similarity()

Создать кадр данных

Создайте фрейм данных на основе столбца заголовков и аналогий на основе функции сходства косинуса

Чтобы увидеть созданный фрейм данных, мне пришлось распечатать первые пять и последние пять строк набора данных.

Попробуйте рекомендации

Функция .input() позволяет пользователю ввести значение, основанное на введенном значении, которое является фильмом, мы рекомендуем 10 фильмов, которые пользователь может посмотреть.

Нажмите ниже, чтобы получить доступ к блокноту Jupyter.

https://github.com/pierrebarrad/Movie-рекомендации

Спасибо за прочтение, пора спать!😴