Являются ли 2020-е десятилетием обработки естественного языка?

Если и есть какой-либо сектор искусственного интеллекта, который вам нужно знать для бизнеса в 2020-х годах, так это обработка естественного языка.

Обработка естественного языка (NLP) станет самой быстрорастущей отраслью искусственного интеллекта в 2020-х годах. Почему? 80–90% бизнес-данных — это неструктурированные текстовые данные. Анализ данных был одной из самых быстрорастущих отраслей в 2010-х годах. Исследование IDC 2012 года показало, что анализируется только 0,5% данных. При этом мы производим в общей сложности 2,5 квинтиллиона байт данных в день¹. Подумай об этом. Это означает, что возможно 2 квинтиллиона байт текстовых данных, которые мы могли бы использовать КАЖДЫЙ. ОДИНОКИЙ. ДЕНЬ.

Что такое обработка естественного языка?

Обработка естественного языка — это часть машинного обучения. Он охватывает как понимание естественного языка (NLU), генерацию естественного языка (NLG), так и взаимодействие на естественном языке (NLI). НЛП можно применять как к речи, так и к тексту. Чтобы применить NLP к речи, в настоящее время нам нужно сначала преобразовать эту речь в текст с помощью автоматического распознавания речи (ASR). Поскольку речь необходимо сначала преобразовать в текст, чтобы ее можно было проанализировать с помощью НЛП, мы сосредоточимся на обработке текста.

Понимание естественного языка

NLU предназначен для преобразования речевых или текстовых данных в анализируемый формат. Речь идет о возможности взять необработанный текст и извлечь из него какую-то информацию. Какую информацию мы можем извлечь? Мы могли бы провести анализ настроений, чтобы увидеть, является ли текст положительным или отрицательным. Мы могли бы сделать распознавание именованных сущностей, чтобы узнать, о ком, о чем, когда и где текст. Основное преимущество NLU заключается в том, что мы можем брать большие объемы текста и преобразовывать их в краткий набор информации, с которой мы можем действовать.

Генерация естественного языка

Генерация естественного языка — это генерация текста из набора данных. Мы уже видели несколько интересных приложений NLG, которые перевернулись в 2010-х годах. Например, бот Microsoft Twitter в 2016 году почти сразу стал расистским и мрачным². NLG действительно иллюстрирует важность ваших исходных данных и очистки данных. Приложения NLG включают в себя такие вещи, как ELIZA, терапевт вопросов / ответов, созданный в 1960-х годах Массачусетским технологическим институтом, написание абзаца текста по теме или даже использование ИИ для написания целого сообщения в блоге.

Взаимодействие на естественном языке

NLI находится на пересечении понимания естественного языка, автоматического распознавания речи (ASR) и своего рода автоматизации задач. Хотя взаимодействие на естественном языке не было первым широким бизнес-приложением НЛП, возможно, именно оно помогло НЛП выйти на передний план общественного внимания. До появления Siri Alexa, Cortana и все остальные голосовые помощники добились огромного успеха в начале 2010-х годов. До этого продукты, выполняющие ASR и автоматизацию задач, проложили путь для NLI, которая ворвалась на сцену с помощью голосовых помощников.

Как мы можем применить НЛП для анализа текстовых данных?

Итак, как мы можем извлечь данные из текста с помощью НЛП? Вот семь способов, которыми мы можем использовать НЛП, чтобы превратить наши текстовые данные в полезную информацию.

Подводя итог: мы не сосредоточены где-то около 70% времени, когда читаем текст. Вы были сосредоточены все время, пока читали это? Возможно нет. Мы можем использовать обобщение ИИ, чтобы извлечь часть наиболее важной информации для повышения нашей эффективности.
Извлечение наиболее распространенных фраз: извлечение наиболее распространенных фраз позволяет нам находить темы и мотивы набора текста. Это может быть набор документов, отдельный документ или конгломерат связанного текста. Извлечение наиболее распространенных фраз показывает нам общие темы текста.
Обнаружение ключевых слов: это можно использовать, чтобы увидеть, говорит ли текст о некоторых ключевых словах, которые мы хотим или не хотим видеть. Например, это может быть использовано для модерации контента. Его также можно использовать, чтобы быстро увидеть, говорит ли текст о том, что мы ищем.
Извлечение предложений с ключевыми словами: это расширение пункта 3. Мы можем извлекать предложения, содержащие определенные ключевые слова. Чтобы сделать это еще лучше, мы могли бы также получить предложения вокруг этих предложений. Это позволяет нам быстро увидеть, что текст говорит о ключевых словах, которые мы ищем.
Определение тональности текста: поиск общей тональности текста важен для таких сервисов, как управление репутацией. Получение текстового настроения позволяет вам понять, положительно или отрицательно относятся люди к вашему продукту. Текстовая тональность может быть применена к отдельным предложениям или ко всему тексту. Для этого мы могли бы также искать более конкретные эмоции, такие как гнев, радость, печаль, счастье и т. д.
Распознавание именованных сущностей: NER помогает нам выяснить, кто/что/когда/где находится в тексте. Это помогает нам определить центральных людей, места и организации, о которых говорится в документе, а также временную шкалу этого текста. Это важно для таких вещей, как внутренние обзоры, стратегические документы и онлайн-обзоры.
Текстовые сходства: мы можем использовать текстовые сходства, чтобы увидеть, сколько из чего-то создано по шаблону, а сколько — на самом деле. Например, я видел сообщение Reddit в Интернете, где кто-то узнал, что конкурент использует почти 100% шаблонный текст для ранжирования в Google. Мы можем использовать это, чтобы проверить стратегии веб-сайта, а также плагиат.

Каковы преимущества использования NLP для анализа данных для моего бизнеса?

После успеха Siri (2010 г.) и Alexa (2014 г.) в конце 2010-х годов появилось множество стартапов, занимающихся автоматическим распознаванием речи. Мы видим, что НЛП сформировалось как индустрия в 2010-х годах. По мере того, как мы движемся к будущему, становится доступным все больше и больше текста. НЛП через обработку текста станет золотой жилой информации. Семь пунктов, которые мы рассмотрели выше, — это лишь некоторые из вещей, которые мы можем делать с обработкой текста.

Основываясь на всех этих моментах, я предсказываю, что возможность использовать НЛП для лучшей обработки текстовых данных будет тем, что отделит процветающие предприятия от предприятий, которые выживают. Мы уже видели это с аналитикой больших данных. Компании, которые используют свою аналитику для измерения своих результатов и принятия соответствующих мер, выигрывают в отрасли. Следующим шагом в аналитике больших данных является текстовая аналитика. Будут ли 2020-е десятилетием НЛП? Время покажет.

Если вам понравился этот пост или он был вам полезен, поделитесь им в Twitter или LinkedIn! Чтобы получить неограниченный доступ к сокровищнице информации на Medium, зарегистрируйтесь, чтобы стать Medium Member сегодня! Для получения дополнительных статей о технологиях, обработке естественного языка и росте, не забудьте подписаться на меня, Юйцзянь Тан.

Дальнейшее чтение

Чтобы начать работу с обработкой естественного языка в качестве разработчика Python (извините, другие разработчики, я занимаюсь Python, поэтому я не так хорошо знаком с другими языками и их библиотеками НЛП, но если вы знакомы, пожалуйста, оставьте их в комментариях!) ознакомьтесь с spaCy, NLTK и BERT с открытым исходным кодом или для веб-API, ознакомьтесь с The Text API (отказ от ответственности: это сделал я).