Пошаговое руководство к конкурсу рекомендаций Microsoft News

Как начать участие в конкурсе рекомендаций Microsoft News

Этот пост написали Fangzhao Wu, Jingwei Yi, Yu Lei, Ying Qiao, Le Zhang и Miguel González-Fierro, все из Microsoft.

Вступление

Рекомендации по новостям стали ключевой технологией машинного обучения для многих новостных служб и важным опытом для миллионов людей при просмотре новостей. Чтобы облегчить открытое исследование рекомендаций по новостям, несколько команд в Microsoft недавно выпустили Microsoft News Dataset (MIND) и запустили Конкурс рекомендаций Microsoft News. В этом сообщении блога подробно рассказывается о разработке алгоритма решения проблемы рекомендации новостей на конкурсе, а затем его отправке на конкурс для оценки. Код, описанный в этом посте, можно найти в репозитории Microsoft Recommenders Github.

Исходные данные для конкурса

Чтобы помочь участникам конкурса рекомендаций Microsoft News начать работу, мы сделали доступными пять базовых показателей: сеть с глубокими знаниями (DKN), долгосрочное и краткосрочное представление пользователей (LSTUR), внимательное многовидовое обучение (NAML), личное Внимание (NPA) и многоголовое самовнимание (NRMS). Работа этих моделей на MIND оценивается в этой статье ACL. Мы используем NRMS в этом сообщении в блоге в качестве примера, чтобы проиллюстрировать процесс отправки, а код для всех пяти базовых показателей находится в репозитории Microsoft Recommenders.

NRMS

NRMS - это алгоритм рекомендаций нейронных новостей, основанный на содержании. Он использует самовнимание с несколькими головами, чтобы зафиксировать взаимосвязь между словами, чтобы изучить представления новостей и зафиксировать взаимодействия между ранее нажатыми новостными статьями, чтобы изучить представления пользователей. Он также использует дополнительное внимание для изучения информативных новостей и представлений пользователей путем выбора важных слов и новостей, как показано на рисунке ниже.

Подробности об алгоритме можно найти в этой статье, а основной алгоритм NRMS доступен здесь.

Пример кода

Блокнот Jupyter предоставляется, чтобы помочь участникам соревнований начать работу с алгоритмом NRMS. В блокнот сначала загружается набор данных MIND. Для обучения модели NRMS необходимо скопировать исходный набор данных с платформы соревнований. Этот шаг удобен с помощью служебной функции в примере кода. Следует отметить, что набор данных, используемых для конкурса, - это набор MINDlarge. Рекомендуется сначала ознакомиться с данными MINDdemo или MINDsample.

Более подробную информацию о процессе обучения и оценки можно найти в блокноте. Чтобы убедиться, что результаты соответствуют требованиям к отправке, оценки прогнозов сохраняются в заархивированных папках для загрузки.

Отправка на MIND Competition

Перед подачей заявки необходимо произвести регистрацию. Подробности о регистрации можно найти здесь. Отправьте электронное письмо с заголовком Регистрация MIND Competition на mind [at] microsoft.com, указав свою информацию (псевдоним учетной записи CodaLab, настоящее имя, контактный адрес электронной почты и место работы) и ваше соглашение. Официальных правил конкурса рекомендаций Microsoft MIND News (напишите в своем электронном письме Я согласен с Официальными правилами конкурса рекомендаций Microsoft MIND News). Регистрация должна быть одобрена в течение одного или двух дней, если запрошенная информация предоставлена полностью, и участнику будет отправлено электронное письмо с подтверждением.

Подача результатов допускается после завершения утверждения участника. Соревнование проходит в два этапа: этап разработки и этап тестирования. На этапе разработки вы можете отправить свои результаты по набору разработчиков в систему Codalab, чтобы получить официальную оценку. На этапе тестирования мы выпустим набор тестов, и вы сможете отправить прогнозируемые результаты по нему в Codalab до истечения крайнего срока.

Чтобы отправить заявку в CodaLab, нужно выполнить несколько шагов:

Перейдите к «Участвовать».
Напишите краткое описание вашей модели (необязательно).

Нажмите кнопку «Отправить».
Загрузите заархивированное представление. Мы используем заархивированную папку, полученную на предыдущих шагах (см. Блокнот), в которой обучается модель NRMS.

Подождите, пока статус оценки не изменится на «Завершено» или «Неудачно». На следующем рисунке показана успешная отправка. Вместе со статусом отправки система также возвращает баллы, полученные в результате оценки модели.

Если статус отправки - «Сбой», вы можете нажать «Просмотреть журнал результатов оценки», а затем «Просмотреть журнал ошибок оценки», чтобы просмотреть журналы отладки. Когда оценка будет завершена, вы можете решить, отображать ли ваши результаты в таблице лидеров.

На этапе разработки участники могут загружать свои прогнозы в набор для проверки и настраивать свои модели в соответствии с результатами. Хотя это не является обязательным, мы настоятельно рекомендуем вам отправить его, если у вас возникнут проблемы с получением обычных результатов оценки. Это также может быть полезно для тех участников, которые плохо знакомы с CodaLab.

Следующие шаги

NRMS превосходит другие базовые показатели MIND в нашем исследовании, но все же есть возможности для улучшения:

В настоящее время мы не учитываем позиционную информацию слов и новостей, но они могут быть полезны для получения более точных новостей и представлений пользователей.
У пользователей обычно есть как долгосрочные предпочтения, так и краткосрочные интересы. Однако наш метод изучает только краткосрочные интересы, то есть изучает представления пользователей из новостей, на которые нажимают, перед текущим показом. Изучая долгосрочные представления пользователей, мы можем включать информацию в несколько показов, потенциально улучшая представление пользователей.
Недавно было продемонстрировано, что графическая нейронная сеть (GNN) эффективна в обучении на графических данных. Сложно построенный граф, основанный на поведении пользователей, может помочь.

Пожалуйста, регистрируйтесь для участия в конкурсе и удачного взлома!

использованная литература

1. Репозиторий рекомендаций Microsoft: https://github.com/microsoft/recommenders

2. Документ MIND: https://msnews.github.io/assets/doc/ACL2020_MIND.pdf

3. ОБРАТИТЕ ВНИМАНИЕ об открытых наборах данных Azure: https://azure.microsoft.com/en-us/services/open-datasets/catalog/microsoft-news-dataset/