Что такое распознавание объектов?

Распознавание именованных объектов (NER) является основным компонентом многих приложений NLP и информационного поиска (IR), включая, помимо прочего, ответы на вопросы, обобщение и машинный перевод. В целом, это играет важную роль в понимании языка. Чтобы выполнить действие по определенному запросу пользователя, вам нужно не только понять намерение, стоящее за ним, но также необходимо извлечь и классифицировать определенные вхождения в фрагменте текста по заранее определенным категориям.

Что это за категории?

Категории можно рассматривать как тип сущностей, которые может извлекать модель NER. Например, это может быть имя (организации, человека, места…), адрес, номера счетов, параметры измерения, проценты и даже термины, относящиеся к предметной области, такие как названия химических веществ, лекарств и т. д. С помощью этого метода , из текста можно извлечь практически любую ценную информацию.

Давайте рассмотрим пример:

Если кто-то говорит "рейсы из Берлина в Лондон", намерение здесь будет рейс-поиск и объектами являются Берлин и Лондон, имеющие тип город.

Эти объекты также можно рассматривать на более детальном уровне. Берлин может быть из города, а Лондон может быть в город.

Примером для конкретного домена может быть,

"Мне нужно 8 таблеток парацетамола", где 8 – это число, парацетамол является лекарственным компонентом, а таблетки является лекарственной формой.

Особенности моделей распознавания объектов NeuralSpace:

  • Стандартные модели. Используйте наши предварительно обученные, готовые к работе модели с помощью API и интегрируйте их в любое приложение. Каждый язык имеет свой набор предварительно обученных сущностей. Ознакомьтесь с ними в наших Документах
  • Поддержка языков: Поддерживается более 80 языков
  • Корзина сущностей: с помощью наших предварительно обученных моделей можно извлечь 36 различных сущностей.
  • Обучение с AutoNLP (скоро): обучение собственных моделей NER извлечению пользовательских сущностей с помощью AutoNLP.
  • Ускорьте создание наборов данных с помощью нашей DataStudio (скоро станет общей). Наша Студия данных, оснащенная удобными служебными инструментами, такими как пометка объектов путем выбора слов, представляет собой встроенный в браузер текстовый редактор и аннотатор для создания наборов данных.

Жизненный цикл моделирования ИИ

Как и другие приложения на платформе NeuralSpace, приложение Entity Extraction позаботится обо всем жизненном цикле моделирования ИИ, т.е.

  • Подготовка набора данных
  • Обучение модели
  • Развертывание модели
  • Отзыв модели

Давайте пройдемся по этим шагам один за другим. Вы можете загрузить существующие наборы данных с помощью новой функции импорта наборов данных или создать свой собственный набор данных в Data Studio — инструменте NeuralSpace для подготовки данных и аннотирования, который предназначен для создания наборов данных. и модификация намного быстрее. Пользователи могут, например, пометить определенные объекты в предложении, и эта фраза или слово также будут автоматически помечены в переведенном предложении, если набор данных требуется более чем на одном языке. Data Studio предназначена для того, чтобы сделать создание набора данных намного проще и быстрее.

Обучить пользовательскую модель NER с помощью AutoNLP так же просто, как нажать кнопку Train with AutoNLP после того, как ваш набор данных будет загружен и подготовлен в Data Studio. После завершения обучения через пару минут вы можете запустить свою модель в производство. Функция AutoMLOPs, разработанная компанией NeuralSpace, позволяет использовать специально обученные модели с пропускной способностью до 30 запросов в секунду. Просто нажмите кнопку Развернуть рядом с обученной моделью, которая достигла наилучшей производительности, и пусть AutoMLops сделает все остальное за вас.

После развертывания вы можете протестировать свои модели с помощью нашего интерактивного механизма тестирования моделей и обратной связи, щелкнув соответственно Проверить модель и страницу отзывов. Страница обратной связи позволяет вам просмотреть все, что прошло через ваши модели, и вы можете напрямую добавить предложения, которые были переведены неправильно, обратно в ваш набор данных. Это запустит цикл обучения на основе обратной связи, и вам следует переобучить свои модели, чтобы поддерживать их в актуальном состоянии. Мы рекомендуем делать это один раз в неделю в первые два месяца вашей живой модели, а затем раз в месяц.

Случаи использования

Многоязычные модели NER NeuralSpace не зависят от отрасли и имеют широкий спектр приложений. Ниже приведены некоторые варианты использования:

Первые рекомендации по контенту и эффективные алгоритмы поиска

Системы рекомендаций доминируют в том, как мы находим новый контент и идеи в современном мире. Издатели новостей, например, используют NER, извлекая объекты из конкретной статьи и рекомендуя другие статьи, в которых упоминаются похожие объекты. В целом такой подход эффективно используется для разработки рекомендаций по контенту для различных СМИ.

Поддержка клиентов №2

Существует несколько способов сделать процесс обработки отзывов клиентов плавным, и NER — один из них. Один из вариантов использования — использование извлеченных сущностей для категоризации запроса и назначения его соответствующему отделу в организации, занимающейся этим.

Системы машинного перевода №3

Когда дело доходит до машинного перевода (особенно для языков с низким ресурсом), именованные объекты оказываются особенно сложными, поскольку их перевод основан на правилах, специфичных для языка. Если именованные объекты извлекаются до фактического перевода, весь процесс становится намного точнее.

#4 Эффективная семантическая аннотация

Семантическая аннотация — это процесс добавления в документ дополнительной информации о понятиях, относящихся к нему. Именованные объекты могут помочь машинам лучше понять нюансы текстового документа, предоставляя эту дополнительную информацию.

Языковая поддержка

Баскский (ЕС)

белорусский (быть)

Каталонский (ок.)

Хорватский (ч)

чешский (чс)

Эстонский (эт)

Галисийский (gl)

венгерский (ху)

Ирландский (га)

латинский (ля)

латышский (lv)

Сербский (ср)

словацкий (ск)

Словенский (сл)

Болгарский (бг)

Армянский (хай)

турецкий (тр)

украинский (Великобритания)

иврит (он)

казахский (кк)

Мальтийский (мт)

уйгурский (уг)

финский (фи)

Шведский (св)

Индонезийский (идентификатор)

Корейский (ко)

вьетнамский (vi)

африкаанс (аф)

Хинди (привет)

бенгальский (млрд.)

телугу (те)

Тамильский (та)

маратхи (г-н)

урду (ур)

Гуджарати (гу)

Каннада (кн)

малаялам (мл)

Ассамский (как)

пенджаби (в год)

персидский (фа)

арабский (ар)

арабский (египетский) (arz)

арабский (левантийский) (apc)

Арабский (Магриби) (ама)

арабский (месопотамский) (acm)

арабский (кувейтский) (akw)

арабский (суданский) (apd)

арабский (залив) (afb)

греческий (эль)

датский (да)

английский (ан)

Норвежский букмол (nb)

Китайский (чж)

голландский (nl)

французский (фр.)

немецкий (де)

итальянский (итал.)

японский (я)

Литовский (lt)

польский (мн.ч.)

Португальский (pt)

румынский (ro)

русский (ru)

испанский (англ.)

Албанский (кв.м.)

Арагонский (ан)

азербайджанский (аз)

Башкирский (ба)

боснийский (бс)

бретон (англ.)

бирманский (мой)

чеченский (вт.ч.)

Чувашский (резюме)

Грузинский (ка)

Гаитянский (ht)

Исландский (есть)

Идо (ио)

яванский (СП)

киргиз (кы)

Люксембургский (фунт)

Македонский (мк)

Малагасийский (мг)

малайский (мс)

Непальский (ne)

окситанский (ос)

Суданский (су)

Суахили (sw)

Тагальский (TL)

таджикский (тг)

татарский (тт)

узбекский (уз)

Волапюк (во)

валлийский (cy)

Йоруба (лет)

Многоязычный/Code-Mixed (многоязычный)

Разные языки поддерживают разный набор сущностей. Посмотрите их здесь.

Ознакомьтесь с нашим руководством Начало работы, чтобы узнать, как использовать распознавание объектов NeuralSpace.

Платформа NeuralSpace работает, тестируйте и пробуйте сами! Ранние подписки получают кредиты на сумму 500 долларов — чего вы ждете?

Присоединяйтесь к Сообществу NeuralSpace Slack, чтобы общаться с нами, задавать вопросы и сотрудничать в интересных проектах с другими участниками сообщества. Кроме того, получайте обновления и обсуждайте темы НЛП для языков с низким уровнем ресурсов с другими разработчиками и исследователями.

Ознакомьтесь с нашей Документацией, чтобы узнать больше о платформе NeuralSpace и ее различных приложениях.

Удачного НЛП!