Обработка естественного языка для социальных сетей

Ученый-маркетолог Кевин Грей спрашивает доктора Анну Фарзиндар из Университета Южной Калифорнии об обработке естественного языка и о том, как она используется в аналитике социальных сетей.

Что такое обработка естественного языка (NLP)? Можете ли вы дать нам нетехническое определение НЛП и краткую историю его возникновения?

Обработка естественного языка — это подраздел искусственного интеллекта, пожалуй, самый известный. Это искусство человеческого общения с машинами, включая тексты и разговорный контент.

Мы говорим о «естественном языке», потому что стремимся общаться с компьютером или смарт-устройством, используя человеческие языки, такие как французский или корейский, а не программирование, такое как Java или Python. Иногда НЛП заменяют «вычислительной лингвистикой», когда акцент делается на междисциплинарных областях лингвистики, информатики и психологии.

Автоматический перевод — одно из первых применений НЛП. Эти усилия восходят к 1950-м годам, когда правительства были заинтересованы в переводе с русского на английский язык. Но сегодня мы используем НЛП в своей повседневной жизни, даже если не знаем названий методов или техник: поиск в Google, использование перевода в комментариях в Instagram, задание вопроса Siri на iPhone, управление Alexa на устройстве Amazon в чтобы слушать музыку или управлять умным домом, или даже слушать ведущего новостей с искусственным интеллектом!

Можете ли вы привести несколько кратких примеров использования методов НЛП?

Во многих приложениях мы можем разбивать сложные задачи на подзадачи или модули. Для конкретного приложения мы можем интегрировать независимые модули НЛП в конвейер, где в этой цепочке вывод каждого модуля становится вводом для следующего.

Например, перевод речи в речь в реальном времени — сложная задача; мгновенные разговорные разговорные фразы автоматически переводятся с исходного языка (например, японского) и произносятся вслух на целевом языке (например, английском). В этом приложении необходимы три отдельных модуля:

Распознавание голоса преобразует устную речь с исходного языка в текст (речь в текст).
Машинный перевод переводит транскрипцию на целевой язык в текстовом формате (текст в текст).
Синтезатор речи преобразует письменный перевод в речь (текст в речь).

Чем НЛП для социальных сетей отличается от НЛП для других реализаций? Существуют ли особые проблемы для НЛП применительно к социальным сетям?

Данные социальных сетей отличаются от традиционных документов, таких как газетные статьи. Эти новые типы данных представляют собой информацию из открытых источников, которая может быть получена публично и имеет следующие свойства: социальные, в режиме реального времени, геопространственно закодированные, эмоции, неологизмы и достоверность/слухи. Эти неструктурированные тексты можно найти во многих форматах, написанные разными людьми на многих языках и в разных стилях, написанные повседневным языком. Более того, авторы не являются профессиональными писателями и происходят из тысяч мест.

Разработка мощных методов и алгоритмов, позволяющих извлекать релевантную информацию из большого объема данных на разных языках, является научной задачей. Обычные методы НЛП для извлечения информации, автоматической категоризации и кластеризации, автоматического суммирования и машинного перевода необходимо адаптировать к новым видам данных.

Сталкивались ли вы с популярными заблуждениями о НЛП?

Иногда люди недооценивают НЛП, сравнивая его с другими областями информатики, такими как обработка изображений. Они думают только о простых методах, таких как Term Frequency-Inverse Document Frequency (TF-IDF), который используется для поиска наиболее важных слов в статье.

Однако при анализе текста или разговоров мы имеем дело не только со словами, грамматикой и синтаксисом, но также должны учитывать семантику и значение. По этим причинам алгоритмы НЛП сложны. Благодаря передовым методам, таким как глубокое обучение, методы НЛП становятся все более и более независимыми от языка.

Как озабоченность по поводу конфиденциальности и личных данных влияет на научные исследования в области аналитики социальных сетей?

Некоторая информация, доступная в социальных сетях, является общедоступной, а некоторая — частной. Есть несколько опасений по поводу конфиденциальности в социальных сетях в отношении пользовательской информации и того, как этот огромный объем общедоступной информации может быть использован в качестве открытой разведки для помощи широкой общественности, например, для предотвращения онлайн-виктимизации и киберзапугивания в школах.

При использовании данных социальных сетей важно учитывать этику информации в технологиях и бизнеса. Однако существует мало руководств или исследований о том, как защитить эту информацию.

Что вы думаете о будущем НЛП? Какие вещи он сможет делать из того, что сейчас не может?

В настоящее время методы НЛП широко используются во многих областях, таких как здравоохранение, финансы, прогнозирование намерений голосования, развлечения, маркетинг, безопасность и оборона.

В будущем стремительное развитие технологий изменит то, как работают люди и машины. Развитие носимых технологий, таких как очки, умные часы, медицинские устройства, фитнес-трекеры, мониторы сна и другие устройства, повлияет на социальные сети и общение.

Например, приложения для здравоохранения являются одной из основных областей носимых технологий. Microsoft, Google и Apple выпустили свои собственные медицинские платформы, с помощью которых врачи и другие медицинские работники могут отслеживать данные, текст и голос, собранные с помощью носимых устройств пациента. Похоже, что методы и приложения НЛП будут все более и более необходимы для анализа данных в будущем, интегрированных с методами обработки мультимедиа.

Спасибо, Анна!

Первоначально опубликовано на сайте www.thedigitaltransformationpeople.com 14 февраля 2019 г.

Обработка естественного языка для социальных сетей

Вопросы по теме