Ранее на этой неделе Tow Center Колумбийского университета опубликовал отчет о своих усилиях по автоматизации новостных статей, написанных об опросах на президентских выборах, проект, который породил почти 22 000 статей во время выборов 2016 года. Все это можно прочитать здесь. Я хочу сосредоточиться на проблемах, с которыми столкнулся этот проект, основной теме отчета:

Добавление дополнительных сведений быстро увеличивает сложность на уровне, которым трудно управлять. Из-за полностью автоматизированного процесса количество ошибок в окончательных текстах было высоким. Большинство ошибок произошло из-за ошибок в исходных данных. … Трудно разработать универсальный алгоритм для разных типов историй. Контекстное знание — это граница автоматизации, которая достигается быстро.

Исследователи возлагают вину за ограничения своего проекта на ограничения технологии, объяснение, которое не согласуется с другими захватывающими работами по обработке естественного языка. Их выбор реализации мог быть проблемой, как показывает этот пример:

Желтым выделением показаны данные, которые просто берутся из необработанных данных и вставляются в текст: название опроса, фактические результаты голосования кандидата или другие статистические данные, такие как период опроса, размер выборки или предел погрешности… Фиолетовое выделение показывает поля, основанные на вычислениях с необработанными данными. Например, алгоритм исходит из данных, что (а) Клинтон впереди в опросе, (б) она впереди на 10 пунктов, и это преимущество статистически значимо. Таким образом, алгоритм опирается на набор предопределенных правил. … Зеленые поля выделяют примеры синонимов, которые используются для разнообразия текста.

Похоже, что на запуск этого алгоритма ушло много ручной работы. Если бы исследователи вручную составили списки слов и фраз для использования программой, то, конечно, она не смогла бы справиться с незнакомыми случаями. Это не автоматизация в смысле машинного обучения; скорее, это шаблон с большим количеством скриптов и некоторой встроенной логикой для обработки динамических значений, что естественным образом приводит к этой проблеме:

Мы достигли границ автоматизации быстрее, чем ожидалось. При разработке основных правил алгоритма мы постоянно сталкивались с такими вопросами, как: как мы должны относиться к разрыву между кандидатами в опросах? Когда у кандидата есть импульс? Когда есть тенденция в данных? Хотя журналисту-человеку может быть легко ответить на такие вопросы, их трудно операционализировать и ввести в них заранее определенные правила.

Заявление о «достижении границ автоматизации» одним подходом в одном эксперименте оказывает медвежью услугу техническим возможностям, которые здесь не исследуются. Да, у подхода с заполнением пустого шаблона есть ограничения, но они присущи формату. Более поразительной для меня является основная проблема с механизмами, на которые опирался этот проект:

PollyVote автоматически собирает данные с различных веб-сайтов, и этот процесс подвержен ошибкам (например, если целевой веб-сайт был недоступен или изменилась структура исходных данных). Таким образом, некоторые тексты не будут генерироваться из-за фильтров по отсутствующим данным, а другие будут генерироваться с ошибками, пока ошибки не будут исправлены.

Обучение компьютера написанию статей — классная и захватывающая часть этой области, но скучная работа по сбору и структурированию данных — вот что на самом деле сделает это будущее возможным. Открытые, чистые, регулярно обновляемые данные недостаточно распространены, чтобы поддерживать автоматическую работу с новостями. Это делает удаление информации с сайтов с помощью парсеров единственным вариантом, неустойчивым подходом, который зависит от обширной сети непредсказуемо меняющихся веб-сайтов.

Цель автоматизированных новостей не должна состоять только в том, чтобы научить компьютер писать. Это должно максимально сократить вмешательство в серверную часть, освобождая нас от создания сложных наборов правил и исправления парсеров. Существуют лучшие технические решения для создания историй, чем динамические шаблоны, которые появятся после дополнительных исследований. Но эти решения зависят от большого количества хороших данных, и мы должны сосредоточиться на том, чтобы выяснить, как получить их прямо сейчас.