Фредерик Филлу

Новостные СМИ остро нуждаются в улучшенных механизмах рекомендаций. Перечень историй может помочь. Это одна из целей проекта оценки качества новостей. (Часть серии.)

Для средств массовой информации рекомендательные машины - это шоу ужасов. Проект NQS, над которым я работаю в Стэнфорде, заставил меня взглянуть на то, как издатели пытаются удержать читателей на своей собственности - и как подавляющее большинство сговаривается с тем, чтобы на самом деле их потерять.

Я буду сопротивляться размещению ужасных снимков экрана, которые я собрал для своего исследования ... Вместо этого мы рассмотрим методы, которые не позволяют посетителю продолжать циркулировать внутри веб-сайта (настольного или мобильного):

- Большинство рекомендуемых историй просто неуместны. Автоматические рекомендации на основе ключевых слов дают плохие результаты: просто упоминание имени человека или различных названий (стран, городов, брендов) слишком часто обнаруживает элементы, в которых нет ничего делать с предметом. Другими словами, без веса релевантности, присвоенного ключевым словам в контексте истории, рекомендации на основе ключевых слов бесполезны. К сожалению, они широко распространены.

Точно так же почти или совсем не прилагается никаких усилий для устранения неоднозначности, возможно, сбивающих с толку слов: в крупных традиционных СМИ я только что увидел статью о сексуальных домогательствах, в которой упоминается Харви Вайнштейн, связанный с… статьей о связях Дональда Трампа с ураганом Харви; статья также связана с поглощением Amazon розничной торговли… только по случайному совпадению: в статьях упоминался Facebook.

- Беспорядок. Читателям всегда требуется минимум указаний. Найти правильный путь к рекомендованным историям (или видео) может быть непросто. Слишком много модулей на странице, какими бы они ни были, сделают бесполезным самый умный механизм рекомендаций.

- Большинство рекомендательных систем не принимают во внимание такие основные элементы, как свежесть или длина связанных произведений. Неоднократно направляйте читателя к мелкой статье трехлетней давности, и весьма вероятно, что она никогда больше не нажмет на ваши предложения.

- Доверие к Taboola или Outbrain. Эти два являются наихудшими визуальными источниками загрязнения цифровых новостей. Некоторые торговые точки используют их, чтобы рекомендовать собственное производство. Но в большинстве случаев через заголовки «В другом месте в Интернете» они отправляют читателя на бесчисленное множество сайтов-приманок. Это имеет несколько побочных эффектов: читатели уходят, их поведенческие данные исчезают, и это искажает лучший дизайн. Ради краткосрочной выгоды (эти две платформы платят большие деньги) издатели отказываются от своей способности удерживать пользователей и в процессе утечки тонны информации, которую Taboola, Outbrain и им подобные перепродают третьим лицам. Действительно умный ход.

Я мог бы упомянуть десятки крупных медиа-брендов, страдающих этими недугами. Для них проблема не в деньгах. Некомпетентность и невнимательность - главные виновники. Менеджеры предпочитают не вкладывать средства в системы рекомендаций, потому что они просто не понимают их ценности.
. . . . .

Многомиллиардные предприятия основаны на крупных инвестициях в компетентные системы рекомендаций: Amazon (как для розничной торговли, так и для видеобизнеса); YouTube и, конечно же, Netflix.

Последний мой любимый. Четыре года назад я осознал размер и масштабы секретного оружия Netflix, его системы предложений, когда читал эту основополагающую статью Алекса Мадригала в The Atlantic.

Мадригал был первым, кто раскрыл количество жанров, поджанров, микрожанров, используемых дескрипторами Netflix для его библиотеки фильмов: 76 897! Это влечет за собой невероятную задачу вручную пометить каждый фильм и создать обширный набор метаданных, начиная от драм о запретной любви и заканчивая героями с выдающимися усами.

Сегодня, после глобального развертывания обновленного механизма рекомендаций (который учитывает культурные различия между странами), алгоритм Netflix является бесценным активом, увеличивая количество просмотров и удержание подписчиков. В своей технической статье Рекомендуемая система Netflix: алгоритмы, ценность для бизнеса и инновации (pdf здесь) Карлос Гомес-Урибе, вице-президент Netflix по инновационным продуктам, говорит (выделено мной):

Ежемесячный отток наших подписчиков выражается небольшими однозначными числами, и в значительной степени это связано с невыполнением платежа, а не с явным выбором абонента для отмены услуги. За годы разработки персонализации и рекомендаций мы снизили отток на несколько процентных пунктов. Уменьшение ежемесячного оттока увеличивает жизненную ценность существующего подписчика и уменьшает количество новых подписчиков, которые нам необходимо приобрести для замены аннулированных участников. Мы считаем, что совокупный эффект персонализации и рекомендаций экономит нам более 1 миллиарда долларов в год.

Конечно, пример Netflix немного экстремален. Ни одна новостная компания не может инвестировать 15 или 20 миллионов долларов всего за один год, имея 70 инженеров, работающих над изменением системы рекомендаций.

Для Netflix это считалось стратегической инвестицией.

СМИ также должны учитывать это, особенно с учетом снижения эффективности рекламы и последующей зависимости от подписок. Если вы заставите пользователя просматривать 5 страниц за сеанс вместо 3, это будет иметь большое значение с точки зрения среднего дохода на пользователя (ARPU). Это также повысит лояльность и сократит отток в платной модели.

Как оценка историй может изменить эту игру? Проект оценки качества новостей, основанный на науке о данных, основан на журналистском подходе к количественным характеристикам выдающейся журналистики. (Эта часть предоставлена ​​замечательной командой французских специалистов по обработке данных, работающих в Kynapse, которая занимается гигантскими наборами данных в области энергетики или здравоохранения.)

Давайте рассмотрим идеальные атрибуты хороших систем рекомендаций для новостей и посмотрим, как их можно измерить.

—Релевантность: означает, как это соотносится с сущностью ссылочной статьи, в отличие от случайного упоминания (что должно исключать базовую систему ключевых слов, которая генерирует так много досадных ложных срабатываний).

—Свежесть: чем позже, тем лучше. Посылать кого-то, кто только что прочитал бизнес-рассказ о цифровой экономике, к старому изданию не имеет смысла, поскольку эта среда быстро меняется. Фактически это означает, что к любым новостям следует применять вес устаревания. За исключением того, что мы должны учитывать следующий атрибут…

-… «Вечнозеленость»: Вечнозеленая история - это классическая пьеса, которая будет длиться (почти) вечно. Хорошим примером является упомянутая выше статья Алекса Мадригала: ее индекс свежести (она была опубликована в январе 2014 года) должен исключать ее из любых автоматизированных рекомендаций, но ее качество, тот факт, что очень немногие журналистские исследования соперничают с работой автора, а также ресурсы публикуемые издателем (количественно измеряемые временем, предоставленным редакторами The Atlantic для «Мадригал», количеством человеко-часов, посвященных обсуждению, редактированию, проверке статьи), все это обычно способствует высокой ценности статьи.

- Уникальность: это фактор, который соседствует с «вечностью», но с большей чувствительностью к актуальности произведения; уникальность также должна оцениваться в контексте конкуренции. Например: «Мы сокрушили другие СМИ этим замечательным репортажем о падении Ракки; мы сделали это, потому что были единственными, у кого были писатель и видеооператор, работающие в Сирийских демократических силах ». Что ж… Какой бы мощной и ресурсоемкой ни была эта статья, ее ценность со временем неумолимо упадет.

—Глубина: система рекомендаций не занимается поиском тонкого содержания. Следует извлекать из архивов только те части, которые содержат всесторонние исследования и отчеты. Глубина может быть определена количественно по длине, плотности информации (существует множество субсигналов, которые измеряют именно это) и, в некоторых случаях, по признакам авторства рассказа, то есть множеству подписей и упоминаний, таких как «Дополнительное сообщение от…» или «Исследователь…» Эту систему тегов относительно легко реализовать в закрытой среде публикации, но, поверьте мне, гораздо сложнее применить к открытой сети!

Платформа оценки качества новостей, над которой я работаю, значительно улучшит работу систем рекомендаций. Имея возможность выставлять оценки для каждой истории (и, в конечном итоге, для каждого видео), я хочу выделить лучшую редакционную статью, которую может предложить публикация.

= ›На следующей неделе мы рассмотрим сложный процесс пометки больших наборов редакционных данных способом, достаточно сопоставимым с тем, что делает Netflix. Это прольет свет на внутреннюю субъективность информации и на суровую реальность неструктурированных данных (в отличие от изображений кошек, новости представляют собой ужасно беспорядочный набор данных). Мы также узнаем, как выбрать правильный тип системы рекомендаций.
Следите за обновлениями.

- [email protected]

Чтобы получать регулярные обновления о проекте оценки качества новостей и участвовать в различных тестах, которые мы собираемся провести, подпишитесь сейчас: