В современную эпоху, когда ИИ и машинное обучение являются горячими словами, совершенно очевидно, что нормальный разработчик программного обеспечения не будет отходить от этой области или вообще лишаться какого-либо влияния на нее.

Обработка естественного языка (НЛП) - это способность компьютерной программы понимать человеческий язык в том виде, в каком на нем говорят. НЛП - это компонент искусственного интеллекта (ИИ) . (см. https://searchbusinessanalytics.techtarget.com/definition/natural-language-processing-NLP)

В наши дни НЛП нашло применение в различных сферах жизни, начиная от автоматических чат-ботов, интерактивных веб-приложений и мобильных приложений, помощников ИИ, классификаторов спама в электронных письмах и многих других.

Как выполнять НЛП?

Обработку естественного языка можно легко выполнить с помощью специальной библиотеки, созданной для Python, называемой набором инструментов естественного языка, часто сокращаемой как «nltk». Создатели библиотеки были достаточно любезны, чтобы сделать всю библиотеку с открытым исходным кодом.

С помощью этой библиотеки вы можете просто начать свое путешествие в обработку естественного языка, загрузив и импортировав библиотеку в свою консоль Python.

Шаги, связанные с НЛП

  1. Токенизация
  2. Стемминг
  3. Лемматизация

Токенизация

Токенизация определяется как процесс переопределения данной последовательности символов / абзаца / корпуса / определенной единицы документа и разделения ее на части, называемые токенами. Часто эти отдельные части представляют собой не что иное, как отдельные предложения или слова.

Корпус или Корпус: большая структурированная коллекция текстов известна как корпус (множественное число).

Стебель

Стемминг определяется как процесс преобразования зараженных или производных слов из корпуса в их основу слова, основание или корневую форму.

Например,

ИНТЕЛЛЕКТ, УМНЫЙ, ИНТЕЛЛЕКТУАЛЬНЫЙ

... INTELLIGEN

Часто проблема с корнем состоит в том, что оно может давать промежуточные слова, не имеющие никакого значения как таковые, такие как «истори», «интеллигент» и т. Д.

Лемматизация

Лемматизация - это то же самое, что и стемминг, за исключением того, что она намного лучше. В этом процессе промежуточное слово действительно имеет определенное значение.

Стемминг против лемматизации

  1. В случае лемматизации представления слов действительно имеют значение, которое сохраняется.
  2. Лемматизация происходит медленнее, чем при выращивании стеблей.
  3. Используйте лемматизацию, когда значение слова важно для анализа (например, в случае анализа тональности, приложения вопросов / ответов, помощников AI), в противном случае используйте определение границ (обнаружение и сортировка спама).

Чтобы узнать больше о стемминге и лемматизации, вы можете обратиться к этому как к дополнительному чтению из Стэнфорда.



Я продолжу в следующем посте и помогу вам попробовать свои силы в кодировании, поэтому, если вы нашли этот пост полезным, хлопните в ладоши и подпишитесь.