Natural Language Toolkit (NLTK) - это платформа, используемая для создания программ для анализа текста. Он имеет библиотеки NLP с открытым исходным кодом для языка программирования python, которые содержат пакеты, позволяющие машине понимать человеческий язык и отвечать на него ответом.

Токенизация, Stemming, Лемматизация, Пунктуация, Подсчет символов и Подсчет слов - вот некоторые из этих пакетов.

Согласно книге «Обработка естественного языка с помощью Python - Анализ текста с помощью набора инструментов естественного языка», NLTK был разработан с учетом четырех основных целей:

Простота: предоставить интуитивно понятную структуру вместе со значительными строительными блоками, дающую пользователям практические знания о НЛП, не увязая в утомительной домашней работе, обычно связанной с обработкой аннотированных языковых данных.

Согласованность: чтобы обеспечить единую структуру с согласованными интерфейсами и структурами данных, а также легко угадываемыми именами методов.

Расширяемость: чтобы обеспечить структуру, в которую можно легко встраивать новые программные модули, включая альтернативные реализации и конкурирующие подходы к одной и той же задаче.

Модульность: чтобы предоставить компоненты, которые можно использовать независимо, не разбираясь в остальной части набора инструментов.