Анализ взаимосвязи между переменными вовлеченности с использованием науки о данных и библиотек машинного обучения Python.

Многие компании и другие лица, использующие социальные сети, стремятся повысить свою вовлеченность в Instagram. Это представляет собой проблему, потому что нужно учитывать очень много различных переменных, таких как частота публикации, время публикации, хэш-теги, лайки, подписчики, комментарии и т. д. Вы можете проверить мои предыдущие статьи Как увеличить вашу вовлеченность. в Instagram», чтобы получить ответы о том, как лучше всего публиковать сообщения и оптимальное количество тегов, и Лучшее время для публикации в Instagram, чтобы обеспечить максимальную вовлеченность, чтобы получить ответы о том, какое время лучше всего публиковать.

Я решил пойти еще дальше и создать несколько моделей машинного обучения с использованием Python для прогнозирования переменных вовлеченности, потому что эти модели позволили бы мне учитывать большее количество переменных социальных сетей.

Ответ

Наиболее точной моделью для прогнозирования количества лайков является регрессия случайного леса. Наиболее точной моделью для прогнозирования числа подписчиков является регрессия k-ближайших соседей. Наиболее точной моделью для прогнозирования количества комментариев является регрессия случайного леса. Переменная вовлеченности, которая имела наибольшую точность в предсказуемости, основанную на других переменных, которые я ввел, и модели, которые я тестировал, — это количество подписчиков. Принимая во внимание, что переменной вовлеченности, которая имела самую низкую точность в предсказуемости, было количество лайков.

Процесс

Поскольку прогнозируемые мной переменные не являются категориальными, я использовал регрессию вместо классификации. Я построил три основных типа моделей машинного обучения: линейную регрессию, регрессию случайного леса и регрессию k-ближайших соседей.

Моим первым шагом для набора данных было создание года, месяца, дня недели, дня, часа и минуты из метки времени, а затем удаление метки времени. Другими переменными, которые я учитывал, были лайки, количество дней, прошедших с поста, оценка лайков, количество тегов, количество комментариев, количество подписчиков, разница в датах и ​​разница в подписчиках. Я решил создать 3 отдельные модели, каждая из которых будет предсказывать количество лайков, количество комментариев и количество подписчиков, и проверить точность каждой, чтобы увидеть, какая модель подходит лучше всего.

Модели машинного обучения для лайков

Линейная регрессия

Точность модели 0,47.

Случайная лесная регрессия

Точность модели 0,51.

K-ближайшие соседи регрессии

Точность модели 0,48.

Заключение

Наиболее точной моделью для прогнозирования количества лайков является регрессия случайного леса.

Модели машинного обучения для подписчиков

Линейная регрессия

Точность модели 0,51.

Случайная лесная регрессия

Точность модели 0,59.

K-ближайшие соседи регрессии

Точность модели 0,71.

Заключение

Наиболее точной моделью для прогнозирования числа подписчиков является регрессия k-ближайших соседей.

Модели машинного обучения для комментариев

Линейная регрессия

Точность модели 0,35.

Случайная лесная регрессия

Точность модели 0,61.

K-ближайшие соседи регрессии

Точность модели 0,59.

Заключение

Наиболее точной моделью для прогнозирования количества комментариев является регрессия случайного леса.