NLTK был первым, что я узнал об обработке естественного языка еще до того, как изучил Python.

Это краткое изложение с высоты птичьего полета. Со временем я включу снимки кода и того, что он выводит.

nltk.word_tokenize() даст вам список строк — токенов, появляющихся в переданном тексте. Это будет включать знаки препинания и не даст вам уникальных слов.

nltk.pos_tag() выдаст вам список кортежей — первый элемент кортежа содержит слово, а второй — часть речи.

Половина Twitter может быть помечена X?

nltk.corpus.stopwords.words(‘english’) предоставит вам список английских стоп-слов.

Просто на заметку — вы также можете получить произношение из NLTK. nltk.corpus.cmudict.entries() предоставит вам список кортежей, где первый элемент — это слово, а второй — список произношения по слогам.

nltk.corpus.wordnet.synstets() позволит вам получить доступ к тезаурусу. .lemma_names() покажет все синонимы рассматриваемого слова, .definition() покажет его определения, .examples() покажет дать вам использование, .hyponyms() — гипонимы, .hyponyms() — чтобы пойти обратным путем гипонимов, это также позволит вам получить меронимы и холонимы. Присутствуют также дополнения и антонимы.

Если вам интересно, насколько тесно связаны два слова, используйте .lowest_common_hypernyms(), nltk.wordnet.synset(word).min_depth(), . path_similarity() покажет оценку от 0 до 1 или -1, если два слова не связаны между собой.