Обработка естественного языка — это подраздел компьютерных наук, лингвистики и искусственного интеллекта, который занимается тем, как люди могут взаимодействовать с компьютерами посредством естественного языка.

Это также можно понимать как программирование компьютера для анализа и обработки больших объемов данных (данные на естественном языке).

Теперь возникает вопрос: «Что называется естественным языком?»

Любой язык, который естественным образом развился у людей в результате использования и повторения без какого-либо планирования или предварительного обдумывания.

Речь и знаки/жесты могут быть его формой.

Естественный язык отличается от формально сконструированного языка, используемого для программирования компьютеров или изучения логики.

В: Как эволюционировали люди?

  1. Общение между ними посредством взаимодействия и языка. Книги и учителя сыграли очень важную роль в распространении знаний, которые стали ключевыми факторами эволюции человека.
  2. Машины: Люди развились благодаря использованию машин, когда пришла промышленная революция. Люди могли управлять различными уровнями больших/маленьких машин через какой-то механизм.
  3. (Предстоящие): Возможности общения с машинами через человеческий язык, также известный как естественные языки.

Применение НЛП в реальном мире

  1. Контекстная реклама. В настоящее время мы видим очень специализированную/целевую рекламу, относящуюся к нашим интересам, которая является результатом наших профилей в социальных сетях, наших симпатий, антипатий и интересов.
  2. Почтовые клиенты: умный ответ, фильтрация спама и т. д.
  3. Социальные сети. НЛП можно использовать в социальных сетях для удаления контента для взрослых и анализа мнений.
  4. Поисковые системы. НЛП используется в поисковых системах для предоставления прямых ответов на вопросы, заданные в строке поиска.
  5. Чат-боты

Общая задача НЛП

  1. Классификация текста/документа: классификация документа по категории. Ex- Новостная статья может быть отнесена к категории «Политика», «Спорт», «Финансы» или к какой-либо другой категории.
  2. Анализ настроений: анализ отзывов о продукте и определение того, хороший он или плохой.
  3. Поиск информации: используется поисковыми системами для извлечения информации с веб-сайтов для запроса вопроса, фактов или цифр. Затем результаты выводятся непосредственно на страницы результатов поиска.
  4. Тегирование частей речи: идентификация каждого слова предложения с помощью тега частей речи.
  5. Распознавание языка и машинный перевод: перевод с одного языка.
  6. Разговорные агенты: голосовые, как Siri и Alexa, текстовые, как чат-боты.
  7. График знаний и система ответов на вопросы (продвинутый уровень НЛП). График может быть создан путем логического объединения сущностей из большой базы данных. Google использует график знаний, чтобы ответить на вопрос в строке поиска.
  8. Обобщение текста: резюме статьи, абзаца или документа. Пример: приложение Inshorts News.
  9. Тематическое моделирование: название текста по определенной теме. Пример: Заявление о данной статье, что речь идет об IPL, крикете или сачине... что-то в этом роде.
  10. Генерация текста: генерация текста каким-либо приложением, например преобразование речи в текст. Клавиатуры Swift в мобильных устройствах Android, которые предсказывают следующее слово, основываясь на привычке или образце набора текста.
  11. Синтаксический анализ текста: разбор предложения на фразу_существительного или фразу_глагола или тегирование частей речи.
  12. Проверка орфографии и грамматическая коррекция.

Подходы к НЛП

  1. Эвристический подход: можно рассматривать как «Jugaad». Это подход, основанный на правилах. Рассмотрим этот подход в Анализе настроений: Таким образом, мы можем подсчитать количество положительных слов и количество отрицательных слов, а затем сравнить значения, и на основе этого мы можем сказать, что отношение является положительным, когда количество положительных слов больше, чем количество отрицательных слов. . Некоторые примеры эвристических подходов:

а. Регулярное выражение

б. Wordnet (лексический словарь) Какое-то отношение между словами. Пример книги → Главная книга → Записи → Регистр → Объем и т. Д.

в. Открытый здравый смысл: база данных с открытым исходным кодом, основанная на здравом смысле, которую может использовать любой желающий.

Преимущество этого эвристического подхода заключается в том, что он может быть более точным и до сих пор используется в текущих сценариях.

2. Подход машинного обучения: большое преимущество заключается в том, что для вывода правил используются данные, а не правило, созданное программистом, в случае эвристического подхода. Правила создаются алгоритмами машинного обучения.

Рабочий процесс: текстовые данные → числа → алгоритм машинного обучения → оценка

Алгоритмы, используемые в подходе ML: наивный байесовский подход, логистическая регрессия, SVM, LDA (используется для тематического моделирования) и скрытая марковская модель.

3. Подход глубокого обучения: большое преимущество заключается в том, что он может использовать последовательную информацию, что было невозможно в подходе ML. Глубокое обучение также может генерировать новые функции для обучения моделей НЛП.

Используемая архитектура:

  1. RNN (рекуррентные нейронные сети): подходит для последовательных данных. Не очень хорошо для очень длинных предложений.
  2. LSTM (долговременная кратковременная память): полезно для сохранения контекстов больших предложений.
  3. GRU (Gated recurent Units): используется для генерации текста.
  4. CNN (сверточные нейронные сети): используется в основном для изображений, но также может использоваться для классификации текста.
  5. Трансформеры: как и BERT (представление двунаправленного кодировщика от трансформаторов). Он обучен Google на 40 ГБ интернет-данных и способен отображать самые современные результаты.

Проблемы в НЛП

В то время как использование НЛП станет основным в ближайшие дни и очень широко используется во многих приложениях, существует также несколько проблем, с которыми практикующие/профессионалы НЛП сталкиваются изо дня в день. Это:

  1. Двусмысленность: (более одного значения). Пример: «Я видел мальчика на пляже в бинокль» или «Я никогда раньше не пробовал такого торта». Оба эти предложения представляют собой двусмысленность.
  2. Контекстные слова: я побежал в магазин, потому что у нас кончилось молоко. Здесь значение слова «побежал» меняется в зависимости от контекста.
  3. Сленг Пример: кусок пирога, тянуть тебя за ногу.
  4. Синоним. Так много слов, обозначающих одно и то же, создает путаницу.
  5. Ирония, сарказм и разница в тонах: «Это как раз то, что мне нужно сегодня!»
  6. Орфографические ошибки. Неправильное слово не имеет значения для машины
  7. Креативность: пример стихотворения, диалога, сценария. Понимание творческой части очень сложно для машины.
  8. Разнообразие. В мире так много языков. Так что научить их всех машине на данный момент почти невозможно.

На этом я могу закончить блог и сказать, что НЛП не ново, оно началось задолго до этого в 1960 году и все еще развивается. Многие приложения уже созданы и используются во всем домене. С текущими проблемами в НЛП у нас все еще есть много вещей для изучения и работы. Сегодня самое подходящее время, чтобы окунуться в мир НЛП, предстоит пройти долгий путь…

Я хотел бы поблагодарить YouTube-канал CampusX за обмен знаниями и повышение осведомленности о НЛП. Ссылка на канал ниже:

CampusX — YouTube