НЛП от нуля к одному: основы (часть 1/30)

Естественный язык и компьютерная лингвистика.

Вступление..

Обработка естественного языка (NLP) - это применение вычислительных методов не только для извлечения информации из текста, но и для моделирования различных приложений поверх него. Все языковые тексты имеют систематическую структуру или правила, которые часто называют морфологией, например, прошедшее время слова «прыжок» всегда означает «прыжок». Для человека это морфологическое понимание очевидно.

В этом вводном блоге о НЛП мы увидим различные методы определения морфологической структуры и правил языка.

Токенизация

Задача сегментирования текста на релевантные слова называется токенизацией.

В простейшей форме токенизация может быть достигнута путем разделения текста с помощью пробелов. NLTK предоставляет функцию word_tokenize () для разделения строк на токены.

text = 'we will look into the core components that are relevant to language in computational linguistics'

Но простая токенизация не всегда работает. В случае сложных слов, в которых используются знаки препинания между словами (пример: what’s)

Если мы хотим сохранить это слово с пунктуацией, простой способ состоит в том, что мы можем разбить текст на слова с помощью пробелов и заменить все знаки препинания ничем.

Стебли и лемматизация

Задача свести каждое слово к корню. Например, «Прогулка» является корнем таких слов, как «Прогулки», «Прогулка», «Прогулка». Обычно корень может иметь гораздо большее значение, чем само время. Поэтому в задачах НЛП очень важно извлекать корень слов в тексте.

Стемминг помогает сократить словарный запас, присутствующий в документах, что экономит много вычислений. Также в таких задачах, как классификация, времена слов становятся неактуальными после применения корней.

Самый популярный метод - это алгоритм Портера Стемминга. Это алгоритмы удаления суффикса, которые не полагаются на таблицу поиска, которая состоит из измененных форм и отношений корневых форм. Построены несколько простых правил для извлечения корневых слов.

лемматизация очень похожа на стемминг, поскольку она удаляет флексию и суффиксы для преобразования слов в их корневые слова. Значение и контекст могут быть потеряны в стемминге, лемматизация сохраняет контекст.

Другое Важно ..

Нормализация регистра. Обычно все слова преобразуются в один регистр.
Стоп-слова: Стоп-слова - это те слова, которые не участвуют в процессе извлечения / моделирование текстовых данных, потому что это наиболее распространенные слова, такие как: «the«, «a» и «is«.

Примечание

Очистка данных. Прежде чем применять сложные вычислительные методы к текстовым данным, мы должны понять и очистить данные. Эти методы помогают нам подготовить текст для моделирования с помощью передовых методов DNN и NLP.

Далее: Теория и код НЛП: разреженные представления документов (Часть 2/40)

Далее:

НЛП Нулевой к одному: разреженные представления документов (Часть 2/30)