Обработка естественного языка, или сокращенно НЛП, определяется как автоматическое манипулирование естественным языком, таким как речь и текст, с помощью программного обеспечения.

Другими словами, это можно описать как машинное обучение с текстовыми данными.

Модели машинного обучения работают только с четко определенными числовыми данными. Следовательно, первым шагом с текстовыми данными является преобразование их в числовой формат. Машинное обучение с текстовыми данными состоит из нескольких шагов, как показано на диаграмме ниже:

Предварительная обработка текста

  1. Токенизация

На этом этапе текстовые данные разбиваются на небольшие части с помощью пробелов и знаков препинания.

Пример -

Вход — «Я люблю танцевать».

Выход токенизации — «мне», «нравится», «танцевать»

2. Остановить удаление слова

Следующим шагом в обработке является удаление стоп-слов.

Стоп-слова – это слова, которые часто встречаются в текстах, но не слишком влияют на общий смысл.
Распространенные стоп-слова: "a", "the", "so", "is", "it". , «в», «в», «это», «там», «там», «мой»
Пример-

Ввод — «Рядом с моим домом есть ресторан»

Вывод удаления стоп-слова - «ресторан возле дома»

3. Вывод

Stemming относится к набору правил для разделения строки на подстроку, которая обычно относится к более общему значению.
Цель состоит в том, чтобы удалить аффиксы слов (особенно суффиксы), такие как «s», «es», «ing», «ed» и т. д.
Примеры —

"играет", "играет" "играет" все становится - "играет"

4. Лемматизация

Похож на стемминг, но более продвинутый. Лемматизация учитывает лингвистику, принимая во внимание морфологический анализ слов. Для этого необходимо иметь подробные словари, которые алгоритм может просмотреть, чтобы связать форму со своей леммой.

«есть», «есть», «есть» все становится «быть»

Это основные этапы обработки при работе с текстовыми данными. Следующим шагом является преобразование чистых обработанных данных в числа. Оставайтесь с нами для следующей статьи, посвященной этой части. Удачной предварительной обработки!