Исследовательская группа из Политехнического института Ренсселера и Raytheon BBN Technologies использовала функции из содержания статей для создания прогностической модели для оценки интереса данного сообщества к новостным статьям.

По большей части прошлые исследования в этой области пытались предсказать общую популярность, а не интерес к нише. Учет предпочтений сообщества в значительной степени игнорировался, за исключением одной модели, основанной на контенте, которая достигла точности 77% после обучения на наборе данных Reddit. Поскольку люди со схожими интересами, как правило, стекаются в одни и те же сообщества, разумно предположить, что прогностическая сила конкретного сообщества будет ценным и эффективным инструментом. Имея это в виду, исследователи стремились улучшить результаты модели, основанной на содержании.

Чтобы разработать новые модели машинного обучения, исследователи собрали данные из различных новостных сообществ на онлайн-платформе Reddit, сосредоточив внимание на четырех конкретных субреддитах, которые характеризуются как общее новостное сообщество, сообщество новостей о заговорах и два гиперпартийных новостных сообщества. Всего было проанализировано более 60 тысяч статей и выделено семь групп признаков, начиная от стиля и заканчивая тональностью. С помощью машин опорных векторов с линейным ядром и классификаторов случайного леса исследователи определили функции, которые наиболее сильно влияют на прогнозирование. Затем производительность классификатора определялась по площади под кривой рабочей характеристики приемника (AUC). Предпочтения основного сообщества лучше всего можно было отделить от других, достигнув почти идеального показателя AUC, равного 1,0; лучшие оценки для отделения сообщества заговорщиков от каждого гиперпартизанного сообщества составили 0,81 AUC и 0,84 AUC соответственно.

Заглядывая вперед, исследователи намерены использовать иерархически-бинарные модели для прогнозирования интересов сообщества в любой будущей работе. В отличие от стандартных многоклассовых моделей, иерархически-бинарные модели помогают защититься от недообучения данных. В дополнение к этому, дальнейшие исследования могут более внимательно изучить потерю производительности с течением времени, чтобы получить представление о том, как часто необходимо переобучать модели машинного обучения.

Подробнее здесь.

Читайте другие статьи о науке о данных на OpenDataScience.com