Привет ребята..! Надеюсь, вам понравился прошлый недельный рассказ о Tensorflow и о том, как вы можете создать свою первую программу на Tensorflow. Сегодня мы продолжим серию Hello World с NLTK. Начиная с самого начала, чтобы каждый мог следовать за нами.

Ваш первый Que….! что такое NLTK…, NLTK (Набор инструментов для естественного языка) - очень популярная сборка библиотеки для Python, которая используется для обработки и анализа данных на естественном (человеческом) языке (текст и речь), это очень широкая тема в CS, которая называется Обработка естественного языка вкратце НЛП. Проще говоря, все об обучении, манипулировании и извлечении значимой информации из естественного языка автоматически, с помощью машины (программного обеспечения). Да, вы можете придать машине силу слуха и понять чувства и значение слов, связанных с НЛП. Пока этого достаточно, не вдаваясь в подробности. Проверьте ссылку, если вам интересно.

Весь код доступен на github juss typoooooo в терминале - ›git clone https://github.com/parthvadhadiya/Natural-Language-processing-with-NLTK

Начнем с NLTK, для установки на вашем компьютере должен быть установлен python и все. Для NLTK введите в терминале - ›sudo pip install -U nltk и протестируйте его, запустив python с import nltk, и поехали…,

Шаг первый

Первый шаг в NLTK - токенизатор. Токенизатор означает разделение текстовых данных на токены. Здесь токен означает отдельную сущность, которая разделяется любым правилом, например предложениями из абзаца.

В первой строке мы импортируем класс токенизатора из nltk, далее мы выбираем несколько случайных строк и передаем их функциям sent_tokenizer и word_tokenizer, и они выдадут токены предложения и токены слов соответственно.

Шаг второй

Давайте двигаться дальше, второй шаг в NLTK - это удаление стоп-слов. Данные могут содержать стоп-слова, такие как is, a, an, the, this и т. Д. Для удаления стоп-слов мы подготовили список всех стоп-слов, и именно NLTK делает это за нас.

В результате вы получите список стоп-слов, собранных nltk, а затем сравните их с текстовыми данными и удалите их простым циклом. Вы можете проверить репозиторий github, если обнаружите какие-либо проблемы.

Шаг третий

В этой части мы встречаемся с Stemming и Lemmatization, оба используются для английского текста. Целью как стемминга, так и лемматизации является сокращение флективных форм, а иногда и производных форм слова до общей базовой формы, например: - «иду» будет преобразовано в «иди». NLTK предоставляет множество функций определения корней и лемматизации, основанных на разных алгоритмах.

Он заменит некоторые слова, такие как «tokenizer» и «tokens», на «token». Теперь, я надеюсь, вы понимаете, что Stemming делает для нас. проверьте ссылки, я добавил больше функций и деталей.

На этом пока все. Я надеюсь, что вам всем понравится, и это поможет вам начать с проблем с NLTK и NLP, как я уже упоминал, этот пост предназначен исключительно для новичков. В следующий раз мы рассмотрим более продвинутые темы библиотеки NLTK, такие как фрагменты POS (части речи), распознаватель Name Entity и многое другое ……

Ссылка: -