Текстовые данные повсюду. Вот несколько отличных ресурсов для изучения НЛП:
- — -
➤ Как решить 90% проблем НЛП
➤ Основные понятия:
Введение в Bag of Words (CountVectorizer, TFIDF, HashVectorizer)
Предварительная обработка текста (удаление стоп-слов, токенизация, стемминг/леммазация)
Векторы слов
Учебник по регулярным выражениям
➤ Общие библиотеки НЛП:
SpaCy
TextBlob
NLTK
Gensim
ULMFit
➤ Проекты НЛП:
Создание простого чат-бота с нуля
Скрапинг веб-страниц и анализ настроений
Важность текстовых функций с ELI5
Тематическое моделирование — скрытое распределение Дирихле (LDA)
- - -
Надеюсь, это поможет 🙂!
Хорошее понимание того, как работать с текстовыми данными, является одним из самых полезных навыков, которыми вы можете обладать как Data Scientist, потому что это буквально везде.
#наука о данных #машинное обучение #nlp