Компания Bakken & Bck объединилась с информационным агентством NTB, чтобы создать первого в Норвегии робота-журналиста. В результате появился цифровой футбольный репортер, который пишет статьи, как человек.

Автоматизация и алгоритмы уже играют большую роль в медиаиндустрии. Программная реклама, первые страницы, управляемые алгоритмами, и машинный перевод - вот некоторые из способов, которыми автоматизация проникла в службу новостей.

Так называемые «роботы-журналисты» - еще один яркий пример автоматизации в отделе новостей. Название немного лукавит, поскольку это не совсем робот и не журналист, а алгоритм. С помощью генерации естественного языка (NLG) алгоритм генерирует текст из пула данных и записывает текст на основе набора предопределенных правил и шаблонов. Если все сделано правильно, это отличный инструмент для журналистов и редакторов, который может высвободить время для более ценной работы.

Несмотря на то, что область генерации естественного языка существует уже более 40 лет, коммерческое применение этой технологии было широко распространено только 6 или 7 лет. По мере того как связанный мир производит экспоненциально все больше и больше данных, потенциал инструментов NLG растет пропорционально. Такие компании, как Automated Insights, Arria и Narrative Science, взяли на себя ведущую роль в выводе технологии NLG на рынок.

В области журналистики технология NLG не имела особого прорыва до 2014 года. В том же году LA Times запустила свой QuakeBot, который извлекал данные о более крупных землетрясениях и помещал их в заранее написанные шаблоны. Основное внимание QuakeBot было уделено скорости, а его главной целью было как можно быстрее донести отчет до общественности.

На этом фоне мы объединились с NTB для создания собственного робота. Амбициозная цель заключалась в том, чтобы робот создавал сводки, в которых не было бы явных ошибок, и которые не требовали бы редактора, а могли бы распространяться прямо среди клиентов NTB. К концу проекта мы достигли этого рубежа.

Как это сделано

Хорошая база данных
В этом конкретном проекте мы хотели сосредоточиться на создании сводок футбольных матчей в высшем дивизионе Норвегии. У NTB есть репортеры обо всех матчах, которые предоставляют данные через свои прямые трансляции. Кроме того, у них есть база данных nifs.no с различной футбольной статистикой. Объединив эти источники, мы могли бы снабдить робота достаточно хорошими данными для создания статей высокого уровня.

Построение конструкции и обучение робота

Общая структура сводки матча достаточно стандартизирована. Вам нужен отличный заголовок, ведущий абзац с наиболее важными моментами, основной текст, описывающий события по мере их развития, пост-сценарий с некоторой дополнительной интересной информацией о матче и, наконец, заключение. Таким образом, мы могли бы создать базовый каркас, на котором построены все статьи.

Чтобы иметь возможность генерировать естественные предложения, роботу необходимо предоставить набор слов и выражений, которые можно взвешивать и выбирать на основе широкого диапазона критериев. Например, мы можем захотеть изменить то, что мы называем домашней командой, используя их местный псевдоним, или нам нужно предоставить ей определенные термины, такие как «хеттрик» или «победитель матча». Спортивные журналисты NTB создали для робота обширный набор шаблонов, чтобы сделать язык максимально естественным и обеспечить его правильным словарным запасом.

Путем тщательного тестирования и итераций движок был обучен избегать странных ошибок и улучшать языковые вариации. Одна из таких зрелищных ошибок заключалась в том, что бедняга, забивший поздно автогол, был героем игры.

Возможности

В этом случае футбольный робот может быть усовершенствован, чтобы предлагать более качественные и разнообразные изделия. Например, местная газета спортивной команды будет представлять иную историю, чем местная газета команды гостей, а различные конкурирующие СМИ будут фокусироваться на разных вещах в своих статьях.

Истории также могут быть разбиты на уровень отдельного пользователя, создавая персонализированные статьи на основе местоположения или интересов. Более того, широта охвата может быть увеличена практически до бесконечности с расширением на большее количество дивизионов, разных возрастных сегментов или других видов спорта.

Роботы-журналисты не собираются в ближайшее время заменять настоящих журналистов, но они могут высвободить огромное количество ресурсов при правильном использовании. Миру нужна более качественная журналистика, и роботы могут стать отличным инструментом для помощи журналистам в сборе и структурировании данных. Если все сделано правильно, робот-журналист может создать бесконечное количество разнообразных статей за секунды и высвободить большие отрезки времени для более ценной работы.