После технического блога с промежуточным обновлением Coner на прошлой неделе и его вводного блога за неделю до этого, я хотел бы использовать сообщение в блоге Coner на этой неделе как возможность проиллюстрировать более широкую картину того, почему отзывы людей о извлеченных сущностях документов важности. Кроме того, я расскажу о проблемах надлежащей мотивации пользователей (как мотивировать пользователей выполнять качественную работу и многое другое) и о том, как экономику брендированных токенов, основанную на OST, можно использовать для повышения вовлеченности пользователей! Наконец, я подвел итог своему прогрессу в Coner POC на этой неделе внизу этого поста, на случай, если вам немного не хватает времени, чтобы прочитать всю статью (хотя я рекомендую это;))

Интеллектуальный поиск документов в цифровых библиотеках является давней проблемой, поскольку требует автоматического высокоточного создания глубоких метаданных для каждого загруженного документа в такой цифровой библиотеке. В отличие от «метаданных», описывающих свойства статьи (название, авторов, цитаты и т. Д.), «глубокие метаданные» - это информация о значении фактическое содержание (полный текст) статьи. Примерами таких глубоких метаданных являются автоматически сгенерированные списки сущностей для различных типов, которые встречаются в документе, например сущности, которые описывают используемый набор данных или метод. Если бы мы могли точно извлекать эти типизированные сущности, это позволило бы осуществлять гораздо более интеллектуальный поиск и исследование электронных библиотек, потому что мы могли бы искать документы на основе вхождений всех видов сущностей. Примером пользовательского запроса может быть «Какие методы обычно применяются к полнотекстовому набору данных Википедии?».

Ранее в этом году была опубликована научная статья, в которой описан подход к извлечению сущностей разных типов гибким, легким и недорогим способом [1]. На рисунке выше представлен обзор представленного ими алгоритма распознавания именованных сущностей (с этого момента называемого NER) и того, как система Coner включена для повышения ее производительности. Я знаю, на первый взгляд это кажется переполнением информации только для одной фигуры, но я постараюсь изо всех сил провести вас через шаги этого подхода!

С NER, чтобы обучить модель классификации для нового типа сущности, все, что вам нужно предоставить, это список исходных терминов (от 5 до 50), которые являются так называемым золотым стандартом (каждый термин в этом списке определен как быть данного типа экспертом предметной области) для желаемого типа [1]. Затем итерационный алгоритм применяет следующие 4 шага динамическое количество раз, пока производительность не сойдется и не будет достигнута оптимальная производительность:

  1. Создание обучающих данных: NER использует список исходных терминов для извлечения обучающих предложений из корпуса более 11 000 документов и аннотирует все вхождения типизированных сущностей в каждое из этих предложений.
  2. Модель обучения. Аннотированные данные обучения отформатированы и помечены, чтобы их можно было использовать для обучения любой современной модели машинного обучения (они использовали CRF). Результирующая модель способна извлекать типизированные объекты из необработанного текста.
  3. Извлечение сущностей: сущности извлекаются из всех документов в корпусе с обученной моделью на шаге 2. Результирующий набор сущностей содержит много шума, поэтому для получения значимой точности требуется дополнительная фильтрация.
  4. Фильтровать объекты. Набор эвристических фильтров применяется для определения релевантных объектов. Например, все объекты, которые являются игнорируемыми и / или общеупотребительными словами на английском языке, удаляются. Окончательный набор сущностей теперь можно использовать в качестве входного списка начальных терминов для шага 1 другой итерации этого алгоритма.

Описанные выше шаги сильно упрощены, чтобы улучшить читаемость для читателей, не знакомых с предметной областью, поэтому, пожалуйста, не стесняйтесь читать полный документ, если вас интересуют более подробные сведения о NER!

Самым большим недостатком NER является то, что настройка фильтрации упрощена и основана на предположениях о семантической взаимосвязи и контексте извлеченных объектов. В общем, машины намного слабее людей в распознавании значения сущности, которая встречается в определенном месте текста, написанного на естественном языке.

Это ключевая мотивация Конера! Используйте человеческое суждение о значимости сущности, чтобы поддерживать и отменять решения, автоматически принимаемые машинами!

Конер стремится повысить точность шага 4 фильтрации NER с помощью трех новых конвейерных модулей Конера (как показано на правой стороне рисунка ранее в этом посте):

  1. Анализатор документов: выбирает репрезентативные статьи из корпуса документов на основе критериев выбора бумаги, таких как наличие PDF-файла, количество цитирований публикации, определенное количество отфильтрованных извлеченных объектов и конференция, на которой она была опубликована.
  2. Coner Interactive Document Viewer: интерактивная онлайн-программа просмотра, которая визуализирует автоматически аннотированные объекты, позволяет пользователям взаимодействовать с ними, давая обратную связь по существующим аннотациям или добавляя новые объекты.
  3. Анализатор отзывов людей: вычисляет метки типа сущностей для каждой сущности, получившей отзывы человека. Сущность помечается как тип сущности, когда большинство оценщиков оценивают ее как «релевантную» для этого типа.

Результирующая обратная связь от сущности включается в этап фильтрации следующей обучающей итерации NER для повышения производительности модели.

Так почему же OST?

В течение последних нескольких месяцев, с тех пор, как в мае я присоединился к OST Alpha Phase II Challenge, я представлял этот проект как интерактивную программу просмотра документов Coner, которая фактически является лишь одним из трех модулей, составляющих полный конвейер Coner. . Это было осознанное решение, потому что онлайн-просмотрщик - это та часть, с которой взаимодействуют пользователи, и которая позволяет собирать отзывы пользователей. Уникальные проблемы краудсорсинга обратной связи с пользователями широко исследованы. Во-первых, при формулировании задачи следует помнить о мошенниках [2, 3]. Кроме того, для обеспечения качества обратной связи необходимы надлежащие механизмы мотивации для правдивой оценки и аннотации [4, 5]. Однако, похоже, меньше исследований механизмов геймификации токенов с технологией блокчейн. Это причина того, что я был вдохновлен на использование токенов OST в качестве метода геймификации! Это новый поворот в сторону более традиционной геймификации, при которой пользователи награждаются фиатными деньгами, купонами, кредитами или даже баллами колледжа. Такой подход не позволяет создать более продвинутую экономику вознаграждений, при которой истинное сообщество пользователей формируется посредством транзакций на основе OST, таких как вознаграждения от создателя контента к оценщику, возможность дарить токены Coner другу или коллеге-исследователю, в которого вы верите. или грант на раздачу от компании Coner для загрузки собственного документа!

Теперь, когда вы, надеюсь, получили лучшее представление об общей картине системы обратной связи Конера, я наконец могу объяснить, что означает имя «Конер», потому что на самом деле это аббревиатура от Co laborative N amed E ntity R ecognition = Coner!

Прогресс Coner POC

  • Интегрированная первая версия механизма выбора интеллектуальной сущности, чтобы сделать обратную связь от человека масштабируемой и максимизировать потенциальный выигрыш информации для каждого экземпляра обратной связи. Вместо того, чтобы полагаться на то, что пользователи системы сами решат, по какому объекту предоставить обратную связь (пользователи обычно предпочитали предоставлять обратную связь почти по всем объектам), процесс активно управляется простым выбором объектов, которые были сохранены на этапе фильтрации и дважды классифицированы. поэтому обученные модели распознают принадлежность к нескольким типам. Сущности почти никогда не принадлежат к нескольким типам (например, одна сущность не является набором данных И методом), поэтому именно здесь люди намного лучше разделяют определенные типы.
  • Встроенный бумажный пул токенов CNR для документов, где токены берутся у создателей контента, чтобы действовать как бумажный бюджет обратной связи. Также обновлены действия по вознаграждению, поэтому оценщики документов получают вознаграждение из бюджетных пулов, созданных для каждого документа, вместо получения вознаграждений напрямую от компании. Также в ApiClient добавлены методы вызова API для всех новых транзакций (например, подарочные токены, выборка пользовательской книги, различные транзакции вознаграждения).
  • Живые уведомления Material Snackbar, когда вы получаете награду CNR.
  • Настройте компонент React.js для кошелька пользователя CNR, чтобы его можно было повторно использовать в нескольких местах веб-приложения.

Мне пришлось преодолеть некоторые проблемы с внутренним управлением состоянием компонентов React.js на стороне клиента и асинхронными вызовами API к OST API V1.1, чтобы обеспечить постоянную синхронизацию баланса CNR между текущим тикером CNR в панели навигации (подробнее см. Запись блога №2) и в других местах приложения.

Время летит! На следующей неделе будет заключительная неделя испытания # OSTa3. Я буду работать над завершением всех функций, упомянутых в предыдущих блогах, и дам исчерпывающий обзор того, что я создал за последний месяц!

Ссылки

[1] Сепидех Месбах, Алессандро Боззон, Кристоф Лофи и Герт-Ян Хубен. Извлечение длиннохвостых сущностей с низкозатратным надзором. Https://2018.eswc-conferences.org/paper_8/, 2018.

[2] Карстен Айкхофф и Арьен де Фрис. Насколько краудсорсинг - ваша задача. В материалах семинара по краудсорсингу для поиска и интеллектуального анализа данных (CSDM) на четвертой международной конференции ACM по веб-поиску и интеллектуальному анализу данных (WSDM), страницы 11–14, 2011 г.

[3] Тим Финин, Уилл Мурнейн, Ананд Карандикар, Николас Келлер, Джастин Мартино и Марк Дредзе. Аннотирование именованных сущностей в данных Twitter с помощью краудсорсинга. In Proceedings of the NAACL HLT 2010 Workshop 47 on Creating Speech and Language Data with Amazon's Mechanical Turk, CSLDAMT ’10, pages 80–88, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.

[4] Эдже Камар и Эрик Хорвиц. Стимулы для правдивого сообщения в краудсорсинге. В материалах 11-й Международной конференции по автономным агентам и многоагентным системам - том 3, AAMAS ’12, страницы 1329–1330, Richland, SC, 2012. Международный фонд автономных агентов и многоагентных систем.

[5] Лука де Альфаро, Марко Фаэлья, Василис Полихронопулос и Михаил Шавловский. Стимулы для правдивых оценок. Препринт arXiv arXiv: 1608.07886, 2016.