Как уже отмечалось в моей серии За рамками вложения слов, 2019 год будет захватывающим годом для обработки естественного языка. Вот мои любимые наборы инструментов NLP, вы можете начать экспериментировать с ними и с записными книжками Azure.

Azure Notebook Service предлагает бесплатные интерактивные вычисления и управление проектами в браузере. Его можно связать с удаленными вычислениями DSVM на GPU с помощью Подписки Azure. Я включил записную книжку с открытым исходным кодом, содержащую инструкции по установке и примеры hello world для каждого из этих наборов инструментов.



1. НЛТК

Слоган: NLTK - набор инструментов для естественного языка - это набор модулей Python с открытым исходным кодом, наборов данных и учебных пособий, поддерживающих исследования и разработки в области обработки естественного языка.

Любимые функции: интеграция лексического корпуса (WordNet, стоп-слова и т. д.), токенизация, анализ тональности.



2. СПАСИБО

Слоган: spaCy - это библиотека для расширенной обработки естественного языка в Python и Cython. spaCy поставляется с предварительно обученными статистическими моделями и векторами слов и в настоящее время поддерживает токенизацию для 30+ языков.

Любимые функции: синтаксический синтаксический анализатор, распознавание именованных сущностей, токенизация, скорость, расширяемый конвейерный интерфейс, визуализация дисплеев.



3. AllenNLP

Слоган: исследовательская библиотека НЛП Apache 2.0, построенная на PyTorch, для разработки современных моделей глубокого обучения для решения широкого круга лингвистических задач.

Любимые функции: вопросы и ответы, обозначение семантических ролей, совместная ссылка внутри документа, текстовый ввод, текст в SQL.



4. Стэнфордское НЛП

Слоган: официальная библиотека Python NLP от Stanford NLP Group. Он содержит пакеты для запуска нашего последнего полностью нейронного конвейера из общей задачи CoNLL 2018 и для доступа к серверу Java Stanford CoreNLP.

Любимые функции: Расширенная языковая поддержка для токенизации, синтаксического анализа, извлечения именованных сущностей, включая иврит, арабский, финский, баскский и другие.



5. Архитектор Intel NLP

Слоган: NLP Architect - это библиотека Python с открытым исходным кодом для изучения современных топологий и методов глубокого обучения для обработки естественного языка и понимания естественного языка.

Любимые функции: извлечение намерений, расширение набора терминов, понимание машинного чтения, единственная работающая система на основе кросс-документов, основанная на ситах, на базе Python.



6. чутье

Слоган: Flair позволяет вам применять наши современные модели обработки естественного языка (NLP) к вашему тексту, такие как распознавание именованных сущностей (NER), тегирование части речи (PoS ), смысловая неоднозначность и классификация.

Любимые функции: простые в использовании предварительно обученные вложения BERT и Flair.



7. Генсим

Слоган: Gensim - это библиотека Python для моделирования тем, индексации документов и поиска сходства с большими корпусами. Целевая аудитория - сообщество разработчиков обработки естественного языка (NLP) и поиска информации (IR).

Любимые функции: Тематическое моделирование, любимая реализация LDA.



Итак, этого должно быть более чем достаточно, чтобы вы начали свой следующий большой проект НЛП.

Надеюсь, это поможет вам начать свое путешествие по НЛП, не стесняйтесь комментировать ниже свои идеи.

Следующие шаги

Если вас интересует область НЛП, и вы хотели бы узнать больше о том, как эти фреймворки работают за кулисами, ознакомьтесь с моей серией статей «За пределами слова» ниже.



Если у вас есть какие-либо вопросы, комментарии или темы, которые вы хотите, чтобы я обсудил, не стесняйтесь подписаться на меня в Twitter, если есть инструмент, который, по вашему мнению, я пропустил, сообщите мне об этом в комментариях ниже.

об авторе

Аарон (Ари) Борнштейн - заядлый энтузиаст ИИ, страстно увлекающийся историей, новыми технологиями и вычислительной медициной. В качестве инженера с открытым исходным кодом в команде Microsoft Cloud Developer Advocacy он сотрудничает с израильским сообществом высоких технологий для решения реальных проблем с помощью технологий, меняющих правила игры, которые затем документируются, публикуются в открытом доступе и передаются остальному миру.