Один из способов, которым TikTok и наука о данных могут помочь улучшить книжную индустрию.

Классификация «буктокеров», чтобы превратить книги из списка в бестселлеры.

Каждый год основная часть продаж книг приходится либо на «классические» книги, либо на новые издания, активно продвигаемые издательствами, стоящими за ними. Некоторые авторы посвящают годы своей жизни созданию потрясающих книг, которые, если только они не достигнут статуса «классики», не будут иметь значительных продаж после первого или второго года их существования и попадут в черный список. В этом посте я описываю один из способов использования машинного обучения, чтобы использовать книжный бум на TikTok, чтобы помочь этим авторам и, надеюсь, изменить отрасль к лучшему.

Возможность: БукТок

Из-за пандемии продажи книг резко выросли, но еще одной движущей силой этого является Booktok в Tiktok, где вирусные рекомендации взрывают продажи книг, даже тех, которые находятся в списке.

Традиционный способ использования этого явления для специалистов по обработке и анализу данных — предоставить издательствам информацию о новых тенденциях #Booktok, чтобы они могли сосредоточиться на быстром выпуске книг, которые им подходят.

Но есть возможность улучшить отрасль, чтобы акцент был сделан не на выпуск бездушных, наспех написанных книг, технически отвечающих всем критериям, которые ищет читатель, а на то, чтобы направлять его к шедеврам, которые были потеряны, потому что не были проданы. . В свою очередь, создание среды, в которой писатели могут сосредоточиться на том, чтобы делать свою лучшую работу, вместо того, чтобы их заставляли выпускать книги быстро и последовательно, если они хотят получить какой-либо доход.

Имея это в виду, я решил создать проект по науке о данных, который мог бы помочь автору. Подробнее об алгоритме проекта читайте в моем посте здесь.

Проблема: найти создателей, которые могут создать положительный контент

Чтобы автор разместил свою книгу на платформе и, надеюсь, в тренде, он захочет раздать ее копии влиятельным тиктокерам. Платформа вращается вокруг творческого видеоконтента, поэтому копии должны быть физическими, чтобы их можно было отображать.
Чтобы не создавать негативных первых впечатлений и не терять импульс, их следует отправлять «буктокерам», которые меньше всего вероятно создание негативного видеоконтента о них. «Разглагольствования» популярны, потому что они могут увеличить число подписчиков автора, но видео, «бредящее» книгой, может сдвинуть с мёртвой точки и вызвать позитивную болтовню вокруг неё.

Я сосредоточился на конкретной отмеченной наградами книге для молодежи. Автор хотел бы отправить печатные копии «тиктокерам», но лучше не отправлять их тому, у кого будет мнение, подобное тому, что слева. Это жестко, и смешно, что делает контент хорошим. Она захочет отправить его тому, кто думает, как тот, что справа.

Решение данных: модель классификации

Мой проект состоит из модели классификации, определяющей вероятность того, что читателю понравится конкретная книга На дороге Джеллико (2006), имеющая оценки 48 тысяч пользователей Goodreads на основе истории их чтения.

Учетные записи большинства букмекеров содержат ссылку на их профиль в Goodreads, где записываются их привычки чтения и прошлые рейтинги, а также поджанры книг. Сделать эти данные полезными для моделирования. В соответствии с Условиями использования для разработчиков Goodreads полученные данные были удалены в течение 24 часов.

С помощью некоторого творческого анализа и разработки функций я создал модель классификации XGBoost, которая помогает автору отправлять книги создателям контента с более высокой вероятностью того, что их книга понравится.

Но анализируя, как особенности каждого читателя взаимодействуют с нашей моделью, автор также может получить важные сведения об аудитории своей книги. На приведенном ниже графике Shap Beeswarm можно оценить, как прошлые взаимодействия с определенными жанрами влияют на вероятность того, что книга понравится.

Высокая оценка книг «Религия» или «Юмор» (ярко-розовые точки) снижает вероятность того, что эта книга понравится (отрицательное значение SHAP). Вероятно, это потому, что в книге есть и тоска, и добрачные отношения.
Низкая оценка книг «Современная молодежь» (синий) или отказ от чтения (серый) приводит к меньшей вероятности того, что эта книга понравится.

Выводы

Используя машинное обучение для классификации читателей, автор может получить представление о своей целевой аудитории и определить читателей, которые, вероятно, создадут положительный контент для своей книги в социальных сетях и потенциально потеряют свой статус «в списке».

Хотя это конкретная модель для конкретной книги, тот же подход можно использовать для построения пайплайна, который можно обобщить для большинства книг, в которых имеется достаточно данных.

Конечно, есть несколько способов, которыми наука о данных может помочь книжной индустрии, и это лишь один из них. Если у вас есть какие-либо идеи или ресурсы, пожалуйста, не стесняйтесь оставлять комментарии.