Может ли это сделать машина? Если да, то как машина это делает?

Человеческий язык очень неоднозначен ... Он также постоянно меняется и развивается. Люди прекрасно владеют языком и понимают язык, а также способны очень подробно выражать, воспринимать и интерпретировать. Теоретически мы можем понять и даже предсказать поведение человека, используя эту информацию . Может ли это сделать машина? Если да, то как это делает машина?

Да, это может сделать машина.

Большой прогресс в области искусственного интеллекта упростил работу специалиста по данным. Понимание человеческого или естественного языка является частью компьютерной лингвистики, известной как обработка естественного языка (NLP). Не только понимание языков, но и языковой перевод, ответы на вопросы, обобщение текста, обнаружение спама, анализ настроений, человеческий диалог и многое другое. Один из примеров - AI Chatbot или Conversational system. В настоящее время разговорные системы становятся одной из важнейших стратегических коммуникационных технологий. Многие исследователи прогнозируют, что к 2020 году средний человек будет больше разговаривать с ботами, чем члены его семьи [Ref. 2 ]. Несмотря на препятствия на пути к этому техническому оптимизму, некоторые комментаторы заметили, что чат-боты не выполняют первоначального обещания о замене приложений и веб-сайтов [Ref. 3 ]. Поставщики платформ, такие как Facebook, по сообщениям, размещают 100 000 ботов и более 285 000 чат-ботов для пандоработов. Ожидается, что это поколение будет чат-ботом для общения с людьми с автоматическим переводом на язык и возможностью исправления грамматики. К сожалению, результаты работы многих моделей чат-ботов иногда дают нам бессмысленный результат.

Понимание человеческого языка или неструктурированных данных - одна из самых сложных задач для машины, но с текущими техниками НЛП она становится проще день ото дня и позволяет машине понимать человеческий язык и выполнять такие задачи, как извлечение отношений, аббревиатура, тональность. анализ, распознавание именованных сущностей и распознавание речи. Более того, исправление зашумленного, неграмотного текста остается сложной задачей в НЛП. В идеале, при наличии некоторого письменного текста, система исправления ошибок могла бы исправить незначительные типографские ошибки, а также грамматические ошибки, которые связаны с более длительными зависимостями, такими как неидиоматическая формулировка или ошибки в согласовании подлежащего и глагола. Однако существующие методы часто позволяют исправить только локальные ошибки, такие как орфографические ошибки или ошибки, связанные с артиклями или предлогами. Подходы к исправлению ошибок, основанные на классификаторах, ограничены в их способности фиксировать широкий диапазон типов ошибок [Ref. 4 ].

В следующих двух сериях я покажу вам практические примеры того, как этого можно достичь. Прежде чем углубиться в это, важно знать, какие процессы задействованы, чтобы машина могла понять, что она проглатывает.

Задачи обработки естественного языка (NLP)

Как показано на рис. 2, список процессов NLP включает преобразование в нижний регистр, разметку, определение аббревиатуры, теги POS, проверку грамматики, удаление стоп-слов, лемматизацию, извлечение сущностей и удаление знаков препинания. Вы можете использовать набор инструментов для естественного языка (NLTK) или StanfordNLP в качестве инструмента для предварительной обработки ввода и получения более точной информации.

В следующей статье (часть 2) я рассмотрю каждую из задач НЛП на практическом примере. Пожалуйста, поделитесь и следите за обновлениями. Спасибо за чтение.

Ссылки:

[1] М. Нуруззаман и О.К. Хуссейн, Выявление фактов для ответа на вопросы чат-бота с помощью маркировки последовательностей с использованием рекуррентных нейронных сетей », представленные в Протоколе конференции ACM Turing Celebration - Китай, Чэнду, Китай, 2019.

[2] Gartner. (2016) Основные стратегические прогнозы на 2017 год и последующий период: выживание в штормовых ветрах цифровой революции. Gartner.

[3] Дж. Гинн, Facebook Messenger делает еще один удар по ботам »в США СЕГОДНЯ, изд: Gannett Satellite Information Network, 2017.

[4] HT Ng, SM Wu, T. Briscoe, C. Hadiwinoto, RH Susanto, C. Bryant, Совместная задача CoNLL-2014 по исправлению грамматических ошибок в Протоколах восемнадцатой конференции по вычислительной естественной Изучение языков: общая задача , Балтимор, Мэриленд, 2014 г., стр. 1–14.