Deepnews.ai - это новое название проекта оценки качества новостей, над которым я работаю в Стэнфорде. Это первое обновление. Подпишитесь здесь, чтобы получать регулярные письма в свой почтовый ящик.

Фредерик Филлу

Это не обычная заметка понедельника. Ниже приводится первый информационный бюллетень, который я буду периодически отправлять тем из вас, кто подписался на обновления Deepnews.ai. Это часть обычной заметки по понедельникам, но будущие обновления будут отправляться только подписчикам из списка рассылки ниже. (Идея состоит в том, чтобы сохранить разнообразие тем, затронутых в Monday Note). Вы можете подписаться сейчас.

Новое название отражает сдвиг проекта в сторону глубокого обучения. Цель остается неизменной: выводить на поверхность отличную журналистику из Интернета, используя алгоритм машинного обучения, делать масштабные и автоматически. Deepnews - это новое название проекта и его веб-сайта, которое намного лучше, чем Оценка качества новостей, которое говорит само за себя, но его трудно запомнить.

Позвольте мне немного откатиться назад и объяснить эволюцию проекта.

В прошлом году, как научный сотрудник Джона С. Найта (JSK) по журналистике, мне пришла в голову идея извлекать из новостей различные сигналы, передающие понятие качества. В течение нескольких недель я пытался построить модель вручную, используя электронную таблицу Google, пытаясь определить правильные веса, которые нужно присвоить каждому сигналу по отношению к другому. Я делал это до тех пор, пока моя кропотливая работа не была мягко, но решительно отвергнута за завтраком моим старым наставником Деннисом Эллисоном. Деннис - профессор исторической информатики в Стэнфорде. По сути, он мне сказал: «Делая это вручную, вы никуда не денетесь. Вам нужно полагаться на алгоритм машинного обучения. Вы создадите набор обучающих статей, введете их в модель машинного обучения, а она позаботится о множестве весов. Это вполне выполнимо.

Я знаю Денниса Эллисона с 1992 года, когда я впервые приехал в Стэнфорд, чтобы написать для Libération рассказ о нанотехнологиях. Деннис познакомил меня с загадками Интернета и со своими многочисленными друзьями (он это делает до сих пор). Эта дискуссия была первым шагом от журналистского проекта к более компьютерно-ориентированному - отбросив меня далеко от моей зоны комфорта. Я описал первую фазу в предыдущих заметках понедельника:

Проект NQS: выход на поверхность с хорошей журналистикой из Интернета
Что показывает структура веб-страницы по качеству новостей
Оценка историй для создания лучших механизмов рекомендаций для новостей
Почему издателям стоит обратить внимание на рынок «умного курирования »

Осенью французская компания Kynapse и ее команда талантливых специалистов в области данных, в том числе одаренная молодая женщина, построившая генератор Бодлера в дождливые выходные, предложили модель, основанную на наборе количественных сигналов, которые мы выбрали в качестве индикаторов. редакционного качества.

Следующая смена произошла этой зимой в Стэнфорде, когда проект был выбран в качестве части программы наставничества для класса глубокого обучения информатике. Класс ведет Киан Катанфоруш, талантливый и молодой (25-летний) ученый-компьютерщик, который тесно сотрудничает с суперзвездой дисциплины Эндрю Нг. Оба объединили свои знания в онлайн-классы, доступные на Deeplearning.ai.

Новости - это чертовски нечеткий набор данных для работы

В этом классе глубокого обучения студенты могут работать с высокоструктурированными наборами данных, такими как медицинские изображения, спутниковые изображения или большие наборы данных с ускорителей частиц. Эти груды информации имеют то преимущество, что они хорошо организованы. Это английский сад по сравнению с экваториальными джунглями набора данных, собранных из новостных статей. (Я благодарен студентам за их терпение при работе с этими корпусами, а также Виктору д'Эрбемону, французскому инженеру, который помог нам очистить данные.) Позже я вернусь к тому, как мы смогли обойти эту проблему. проблема.

Работа с чистыми и квалифицированными наборами данных является ключевым моментом для моделей машинного обучения или глубокого обучения (последнее требует примерно в 20 раз больше данных). Точно так же, как для использования в нейронной сети, медицинское сканирование, показывающее опухоль, должно быть помечено как «доброкачественное» или «злокачественное», нам необходимо создать набор данных статей, обозначенных как «с добавленной стоимостью» по сравнению с « товар". До сих пор единственная дифференциация, которую мы могли использовать, основывалась на источниках. Некоторые статьи попадают в ту или иную категорию. Далеко не идеальный вариант, поскольку наша цель - отличить неглубокую статью, опубликованную авторитетным источником, от подробного отчета, неожиданно поступившего от товарного издателя. (В конце концов, мы хотим иметь возможность открывать доступ к уникальному и подробному содержанию из Интернета из микроисточников, таких как специализированные блоги.)

Мы работаем над несколькими способами создания правильно помеченного набора данных новостей. На следующей неделе мы начнем анализировать огромное количество данных, предоставленных нам Mather Economics, аналитической фирмой из Атланты, специализирующейся на увеличении цифровых доходов. Эти десятки тысяч статей помечены всевозможными метаданными, которые де-факто будут бесценными ярлыками качества (разумеется, мы получили одобрение издателя контента). Это значительно повысит точность наших будущих моделей.

Знакомство с интерфейсом оценки новостей

Мы также начинаем эксперимент по привлечению оценки статей людьми с запуском специального веб-сайта, который позволяет публике оценивать статьи вручную.

Начните тестировать истории прямо сейчас: ▸ https://evaluate.deepnews.ai/

ОБНОВЛЕНИЕ 05.09.18: ДАННЫЙ ИНТЕРФЕЙС СЧЕТОВ БОЛЬШЕ НЕ ОБСЛУЖИВАЕТСЯ

Оценка включает в себя сигналы качества, которые не могут быть собраны автоматически. Мы называем их «субъективными сигналами». В их число входят:
- Тщательность: насколько глубока журналистская работа?
- Равновесие и справедливость: это пристрастный материал или довольно сбалансированный материал?
- Срок службы статьи: будет ли она ценной длятся день, несколько недель или месяцев, или это «вечнозеленый кусок»
- Актуальность статьи: каково место статьи как в социальном контексте, так и в новостном цикле.
И наконец. , мы просим тестировщика дать статье «общую оценку».

В следующем отчете о ходе работы вместе с приглашенными участниками мы рассмотрим различные модели, которые мы используем. Мы поделимся некоторыми идеями специалистов по обработке данных, работающих в той же области. Мы также рассмотрим моделирование ключевых компонентов качественной новостной статьи, таких как журналистский аспект, то, что делает статью «вечнозеленой», и можем ли мы количественно оценить глубину статьи.

Опять же, чтобы получать регулярные обновления об этом захватывающем проекте, щелкните ниже.

- [email protected]