В этой статье мы собираемся увидеть и попытаться предсказать цену книги без использования обработки текста НЛП и только с использованием основных методов, а также попытаемся выяснить, как мы можем это сделать и какие результаты мы получаем.

Итак, у нас есть множество функций, с помощью которых мы можем попытаться предсказать цену книги.

Начнем с импорта необходимых нам базовых пакетов и полученных данных.

У нас есть данные о спуске для обучения и тестирования.

Давайте сначала удалим столбец цен из набора данных поезда и присоединимся к набору данных поезда и тестирования, чтобы мы могли выполнять различные методы очистки и обработки данных.

Итак, мы храним данные столбца Price в прейскуранте, чтобы мы могли использовать их при запуске модели машинного обучения.

Итак, после того, как мы объединили фреймы данных, давайте начнем с извлечения чисел и использования полных данных из столбцов.

Столбец Edition содержит различные редакции, которые имеют одинаковый тип выпуска, но разные даты выпуска редакции. Поэтому сначала мы извлекаем из столбца только тип выпуска и сохраняем его в списке, а затем заменяем значения столбца списком.

В столбце «Обзоры» есть обзор книги из 5 звезд, поэтому возьмем только номер отзыва и удалим из столбца 5 звезд.

Столбец рейтинга содержит рейтинги клиентов, поэтому давайте возьмем из него только число, сохраним его в списке и заменим столбцом, как мы это делали в двух шагах выше.

Итак, теперь мы очистили 3 важных столбца.

Теперь займемся категориальными данными.

Теперь мы помечаем «Кодирование» столбцов «Авторы», «Категория книги», «Жанр» и «Издание».

Теперь у нас остались столбцы «Сводка» и «Заголовок». Мы не можем обрабатывать этот столбец «Заголовок», поскольку он отличается для каждой книги, а для столбца «Сводка» нет эффективного способа справиться с этим без НЛП. Итак, бросаем их.

Итак, теперь давайте посмотрим, как выглядит наш фрейм данных.

Теперь у нас есть фрейм данных, который мы можем передать моделям машинного обучения для обучения, но сначала давайте не будем забывать, что мы объединили данные поезда и тестирования для обработки данных, поэтому давайте снова разделим их и добавим столбец Price в наш фрейм данных поезда, который мы хранится в списке выше.

Теперь мы готовы к прогнозированию цен на книгу, но сначала давайте сделаем некоторую визуализацию, которая даст нам представление обо всех функциях.

Вы можете получить код для каждого графика по ссылке внизу.

Теперь давайте, наконец, начнем с моделирующей части.

Давайте импортируем необходимые библиотеки из Sklearn и разделим данные в X_train, X_test, y_train и y_test, которые помогут нам разделить данные и использовать 70% данных для обучения и другие 30% для тестирования Модели.

Я использовал много подходов для прогнозирования, но в статье я ограничусь только двумя лучшими моделями, основанными на (Среднеквадратичная ошибка журнала) RMSLE, метрике, по которой мы будем судить о нашей модели.

Давайте создадим нашу первую хорошую модель, используя регрессор опорных векторов

Теперь давайте посмотрим на лучшую модель прогнозирования, которая является LightGBM Regressor.

Почему именно Light GBM Regressor?

LightGBM - это фреймворк для повышения градиента, который использует древовидные алгоритмы обучения и предназначен для распространения и эффективности с более высокой скоростью обучения и более высокой эффективностью. Кроме того, он использует XGBoost в качестве baseline и превосходит его в обучающей скорости и размерах наборов данных, с которыми он может справиться. А также LightGBM в некоторых случаях достигает максимальной точности менее чем за минуту и ​​при чтении только части всего набора данных.

Он также предоставляет встроенный метод plot_importance, который помогает нам узнать важность Feature.

Итак, это для этой статьи и спасибо, если вы все еще читаете, вы можете получить весь код.

И посмотрите все различные методы, не упомянутые в статье, которую я использовал для прогнозирования цен по этой ссылке вместе с используемым набором данных:

Https://github.com/Chintan99/Predict-Book-Price-without-NLP/blob/master/Book_Price_Prediction-Chintan_Chitroda.ipynb