Текстовые данные повсюду. Вот несколько отличных ресурсов для изучения НЛП:

- — -
Как решить 90% проблем НЛП

➤ Основные понятия:
Введение в Bag of Words (CountVectorizer, TFIDF, HashVectorizer)

Предварительная обработка текста (удаление стоп-слов, токенизация, стемминг/леммазация)

Векторы слов

Учебник по регулярным выражениям

➤ Общие библиотеки НЛП:
SpaCy
TextBlob
NLTK
Gensim
ULMFit

➤ Проекты НЛП:
Создание простого чат-бота с нуля

Скрапинг веб-страниц и анализ настроений

Важность текстовых функций с ELI5

Тематическое моделирование — скрытое распределение Дирихле (LDA)

- - -
Надеюсь, это поможет 🙂!

Хорошее понимание того, как работать с текстовыми данными, является одним из самых полезных навыков, которыми вы можете обладать как Data Scientist, потому что это буквально везде.

#наука о данных #машинное обучение #nlp