TL; DR: в этой публикации рассказывается, как развернуть Doccano в веб-приложениях Azure, чтобы совместно аннотировать текстовые данные для задач обработки естественного языка.

Весь код для этого сообщения можно найти здесь:



Что такое Доккано?

Doccano - это инструмент с открытым исходным кодом, который предоставляет функции аннотации для классификации текста, маркировки последовательностей и последовательности для последовательности.

Недавно я работал над аннотированием набора данных для совместной ссылки. В рамках этой задачи у меня было время оценить несколько различных платформ текстовых аннотаций.

Большинство бесплатных инструментов для аннотаций с открытым исходным кодом, таких как Brat и Anafora, не соблюдают современные принципы UX. Doccano - единственный инструмент аннотации с открытым исходным кодом, который я видел в современном пользовательском интерфейсе. Хотя существуют и другие современные инструменты текстовых аннотаций, такие как Prodigy и LightTag, существуют, но у них очень дорогие лицензии.

Однако для совместной работы с Doccano нам необходимо разместить сайт где-нибудь, чтобы упростить этот процесс, в этом руководстве вы узнаете, как это сделать.

Что такое Веб-приложение для контейнеров?

Служба приложений Azure не только добавляет в ваше приложение мощные возможности Microsoft Azure, такие как безопасность, балансировка нагрузки, автомасштабирование и автоматическое управление. Вы также можете воспользоваться его возможностями DevOps, такими как непрерывное развертывание из Azure DevOps, GitHub, Docker Hub и других источников, управление пакетами, промежуточные среды, личный домен и сертификаты SSL.

Шаг 1. Разверните Doccano в службе приложений Azure

Если у вас есть существующая подписка Azure, вы можете начать аннотировать данные, просто нажав кнопку ниже для автоматического развертывания.

В противном случае вы можете получить бесплатную учетную запись Azure здесь, а затем нажать кнопку развертывания выше.



Шаг 2. Перейдите в раздел развертывания Doccano и войдите в систему.

После развертывания перейдите по следующему URL-адресу, где {appname} - это имя приложения, которое вы выбрали выше.

Https: // {appname} .azurewebsites.net / логин

Например, в нашем развертывании выше URL-адрес входа будет

«Https://doccana.azurewebsites.net/ секслогин

Вы попадете на страницу входа в Doccano, где сможете войти с помощью Admin_user и Admin_pass, которые вы настроили при развертывании.

Теперь вы готовы начать аннотировать свои собственные данные. Ознакомьтесь с инструкциями на Doccano github. Следующие шаги дословно взяты из учебника.

Шаг 3 Создайте набор данных

Здесь мы берем задачу аннотации NER для научной фантастики, чтобы дать вам краткое руководство по doccano.

Ниже представлен файл в формате JSON, содержащий множество описаний научной фантастики на разных языках. Нам нужно аннотировать некоторые объекты, такие как имена людей, название книги, дату и так далее.

books.json

{"text": "The Hitchhiker's Guide to the Galaxy (sometimes referred to as HG2G, HHGTTGor H2G2) is a comedy science fiction series created by Douglas Adams. Originally a radio comedy broadcast on BBC Radio 4 in 1978, it was later adapted to other formats, including stage shows, novels, comic books, a 1981 TV series, a 1984 video game, and 2005 feature film."}
{"text": "《三体》是中国大陆作家刘慈欣于2006年5月至12月在《科幻世界》杂志上连载的一部长篇科幻小说,出版后成为中国大陆最畅销的科幻长篇小说之一。2008年,该书的单行本由重庆出版社出版。本书是三体系列(系列原名为:地球往事三部曲)的第一部,该系列的第二部《三体II:黑暗森林》已经于2008年5月出版。2010年11月,第三部《三体III:死神永生》出版发行。 2011年,“地球往事三部曲”在台湾陆续出版。小说的英文版获得美国科幻奇幻作家协会2014年度“星云奖”提名,并荣获2015年雨果奖最佳小说奖。"}
{"text": "『銀河英雄伝説』(ぎんがえいゆうでんせつ)は、田中芳樹によるSF小説。また、これを原作とするアニメ、漫画、コンピュータゲーム、朗読、オーディオブック等の関連作品。略称は『銀英伝』(ぎんえいでん)。原作は累計発行部数が1500万部を超えるベストセラー小説である。1982年から2009年6月までに複数の版で刊行され、発行部数を伸ばし続けている。"}

Шаг 4 Создайте проект

Для этой задачи нам нужно создать новый проект. Вход в систему с учетной записью суперпользователя.

Чтобы создать свой проект, убедитесь, что вы находитесь на странице списка проектов, и нажмите кнопку Create Project. Что касается этого руководства, мы назовем проект как sequence labeling for books, напишем описание, выберем тип проекта маркировки последовательностей и выберем созданного нами пользователя.

Шаг 5 Импорт данных

После создания проекта мы увидим страницу «Импорт данных» или нажмите кнопку Import Data на панели навигации. Мы должны увидеть следующий экран:

Выбираем файл JSON books.json для загрузки. После загрузки файла набора данных мы увидим страницу Dataset (или щелкните список кнопок Dataset на левой панели). На этой странице отображаются все документы, которые мы загрузили в один проект.

Шаг 6 Определите метки

Нажмите кнопку Labels на левой панели, чтобы определить наши собственные ярлыки. Мы должны увидеть страницу редактора этикеток. На странице редактора меток вы можете создавать метки, указав текст метки, горячую клавишу, цвет фона и цвет текста.

Что касается учебника, мы создали несколько сущностей, связанных с научной фантастикой.

Шаг 6 Аннотация

Далее мы готовы аннотировать тексты. Просто нажмите кнопку Annotate Data на панели навигации, и мы можем начать комментировать документы.

Шаг 7 Экспорт данных

После этапа аннотации мы можем загрузить аннотированные данные. Нажмите кнопку Edit data на панели навигации, а затем нажмите Export Data. Вы должны увидеть экран ниже:

Здесь мы выбираем файл JSON для загрузки данных, нажав кнопку. Ниже приведен аннотированный результат для нашего учебного проекта.

sequence_labeling_for_books.json

{"doc_id": 33, "text": "The Hitchhiker's Guide to the Galaxy (sometimes referred to as HG2G, HHGTTGor H2G2) is a comedy science fiction series created by Douglas Adams. Originally a radio comedy broadcast on BBC Radio 4 in 1978, it was later adapted to other formats, including stage shows, novels, comic books, a 1981 TV series, a 1984 video game, and 2005 feature film.", "entities": [[0, 36, "Title"], [63, 67, "Title"], [69, 75, "Title"], [78, 82, "Title"], [89, 111, "Genre"], [130, 143, "Person"], [158, 180, "Genre"], [184, 193, "Other"], [199, 203, "Date"], [254, 265, "Genre"], [267, 273, "Genre"], [275, 286, "Genre"], [290, 294, "Date"], [295, 304, "Genre"], [308, 312, "Date"], [313, 323, "Genre"], [329, 333, "Date"], [334, 346, "Genre"]], "username": "admin"}
{"doc_id": 34, "text": "《三体》是中国大陆作家刘慈欣于2006年5月至12月在《科幻世界》杂志上连载的一部长篇科幻小说,出版后成为中国大陆最畅销的科幻长篇小说之一。2008年,该书的单行本由重庆出版社出版。本书是三体系列(系列原名为:地球往事三部曲)的第一部,该系列的第二部《三体II:黑暗森林》已经于2008年5月出版。2010年11月,第三部《三体III:死神永生》出版发行。 2011年,“地球往事三部曲”在台湾陆续出版。小说的英文版获得美国科幻奇幻作家协会2014年度“星云奖”提名,并荣获2015年雨果奖最佳小说奖。", "entities": [[1, 3, "Title"], [5, 7, "Location"], [11, 14, "Person"], [15, 22, "Date"], [23, 26, "Date"], [28, 32, "Other"], [43, 45, "Genre"], [53, 55, "Location"], [70, 75, "Date"], [126, 135, "Title"], [139, 146, "Date"], [149, 157, "Date"], [162, 172, "Title"], [179, 184, "Date"], [195, 197, "Location"], [210, 212, "Location"], [227, 230, "Other"], [220, 225, "Date"], [237, 242, "Date"], [242, 245, "Other"]], "username": "admin"}
{"doc_id": 35, "text": "『銀河英雄伝説』(ぎんがえいゆうでんせつ)は、田中芳樹によるSF小説。また、これを原作とするアニメ、漫画、コンピュータゲーム、朗読、オーディオブック等の関連作品。略称は『銀英伝』(ぎんえいでん)。原作は累計発行部数が1500万部を超えるベストセラー小説である。1982年から2009年6月までに複数の版で刊行され、発行部数を伸ばし続けている。", "entities": [[1, 7, "Title"], [23, 27, "Person"], [30, 34, "Genre"], [46, 49, "Genre"], [50, 52, "Genre"], [53, 62, "Genre"], [63, 65, "Genre"], [66, 74, "Genre"], [85, 88, "Title"], [9, 20, "Title"], [90, 96, "Title"], [108, 114, "Other"], [118, 126, "Other"], [130, 135, "Date"], [137, 144, "Date"]], "username": "admin"}

Поздравляю! Вы только что узнали, как использовать doccano в Azure для проекта маркировки последовательностей.

Если у вас есть какие-либо вопросы, комментарии или темы, которые вы хотели бы, чтобы я обсудил, не стесняйтесь подписываться на меня в Твиттере, если есть веха, которую я пропустил, пожалуйста, дайте мне знать. Спасибо Hironsan за прекрасную работу!

об авторе

Аарон (Ари) Борнштейн - заядлый энтузиаст ИИ, страстно увлекающийся историей, новыми технологиями и вычислительной медициной. В качестве инженера с открытым исходным кодом в команде Microsoft Cloud Developer Advocacy он сотрудничает с израильским сообществом высоких технологий для решения реальных проблем с помощью технологий, меняющих правила игры, которые затем документируются, публикуются в открытом доступе и передаются остальному миру.