В современную эпоху, когда ИИ и машинное обучение являются горячими словами, совершенно очевидно, что нормальный разработчик программного обеспечения не будет отходить от этой области или вообще лишаться какого-либо влияния на нее.
Обработка естественного языка (НЛП) - это способность компьютерной программы понимать человеческий язык в том виде, в каком на нем говорят. НЛП - это компонент искусственного интеллекта (ИИ) . (см. https://searchbusinessanalytics.techtarget.com/definition/natural-language-processing-NLP)
В наши дни НЛП нашло применение в различных сферах жизни, начиная от автоматических чат-ботов, интерактивных веб-приложений и мобильных приложений, помощников ИИ, классификаторов спама в электронных письмах и многих других.
Как выполнять НЛП?
Обработку естественного языка можно легко выполнить с помощью специальной библиотеки, созданной для Python, называемой набором инструментов естественного языка, часто сокращаемой как «nltk». Создатели библиотеки были достаточно любезны, чтобы сделать всю библиотеку с открытым исходным кодом.
С помощью этой библиотеки вы можете просто начать свое путешествие в обработку естественного языка, загрузив и импортировав библиотеку в свою консоль Python.
Шаги, связанные с НЛП
- Токенизация
- Стемминг
- Лемматизация
Токенизация
Токенизация определяется как процесс переопределения данной последовательности символов / абзаца / корпуса / определенной единицы документа и разделения ее на части, называемые токенами. Часто эти отдельные части представляют собой не что иное, как отдельные предложения или слова.
Корпус или Корпус: большая структурированная коллекция текстов известна как корпус (множественное число).
Стебель
Стемминг определяется как процесс преобразования зараженных или производных слов из корпуса в их основу слова, основание или корневую форму.
Например,
ИНТЕЛЛЕКТ, УМНЫЙ, ИНТЕЛЛЕКТУАЛЬНЫЙ
... INTELLIGEN
Часто проблема с корнем состоит в том, что оно может давать промежуточные слова, не имеющие никакого значения как таковые, такие как «истори», «интеллигент» и т. Д.
Лемматизация
Лемматизация - это то же самое, что и стемминг, за исключением того, что она намного лучше. В этом процессе промежуточное слово действительно имеет определенное значение.
Стемминг против лемматизации
- В случае лемматизации представления слов действительно имеют значение, которое сохраняется.
- Лемматизация происходит медленнее, чем при выращивании стеблей.
- Используйте лемматизацию, когда значение слова важно для анализа (например, в случае анализа тональности, приложения вопросов / ответов, помощников AI), в противном случае используйте определение границ (обнаружение и сортировка спама).
Чтобы узнать больше о стемминге и лемматизации, вы можете обратиться к этому как к дополнительному чтению из Стэнфорда.
Я продолжу в следующем посте и помогу вам попробовать свои силы в кодировании, поэтому, если вы нашли этот пост полезным, хлопните в ладоши и подпишитесь.