- Сяо-Фэй Чжан

28 июля 2017 г.

AaaS против HiPPO

Несколько лет в моей отрасли была шутка изнутри, а именно маркетинговые исследования для ИТ-индустрии: если все будет «как услуга», почему бы не AaaS (аналитики как услуга)? Мы, отраслевые аналитики, будем без работы.

К счастью, мы избежали этой пули - по крайней мере, на данный момент.

Кажется, все простые ответы находятся на расстоянии нескольких нажатий или голосовых команд: если мы хотим знать, где находится ближайший индийский ресторан, лучший способ добраться до него, рост ВВП Индии или что-то еще, что мы хотим узнать об Индии, мы просто Google это, или спросите Siri или Alexa. Как скоро вы его получите? Немедленно. А сколько это стоит? Абсолютно бесплатно.

Но чтобы ответить на трудные вопросы, вам все равно нужно обратиться к нам, не так ли? Да, это будет стоить вам руки и ноги, и может потребоваться несколько часов, дней, недель или даже месяцев, чтобы получить некоторые ответы, но эй, а где еще вы собираетесь их найти? Можете ли вы действительно спросить Google или Alexa: «Насколько выросла или уменьшилась доля IBM на рынке XYZ на континенте или в стране ABC за последние 3 года?» или «Почему у HCL лучше, чем у некоторых других индийских игроков, скажем, в инфраструктурном бизнесе?»

Итак, вот еще один забавный акроним (по крайней мере, один из моих любимых): HiPPOs (мнение самого высокооплачиваемого человека). Мы (аналитики) HiPPO - конечно, не самые дорогие, но и недешевые. Впервые я услышал это на программном выступлении на одном из мероприятий моей компании. Речь шла о возрасте машин и о том, как алгоритмы заменят HiPPO. Итак, здесь было мероприятие, организованное компанией, полной экспертов, которые заплатили еще более крупному эксперту много денег, чтобы поговорить о том, как с экспертами покончатся более умные машины. Грубо говоря, компания HiPPO наняла еще одну HiPPO, чтобы сказать, что с HiPPO покончено. Вы должны оценить иронию всего этого.

Но если оставить в стороне иронию, сама речь великолепна, и этот HiPPO имеет смысл: если мы продолжим проводить одни и те же исследования рынка таким же образом и взимать с наших клиентов ту же цену, наши дни сочтены. Скоро AaaS! Если мы этого не сделаем, за нас это сделают другие.

В этом посте я расскажу о том, как, по моему мнению, искусственный интеллект (ИИ) подорвет и изменит нашу отрасль. Обратите внимание, что высказанные здесь мнения являются только моими личными взглядами.

Я считаю, что некоторые технологии искусственного интеллекта, хотя и являются захватывающими, все еще далеки от широкого коммерческого внедрения и / или ориентированы в первую очередь на потребителя. Например, глубокая нейронная сеть для изображений и видео сделала большой шаг вперед, но мы все еще далеки от полностью автономного вождения, летающих дронов и созданных с помощью машин боевиков-блокбастеров. Оставим это Google, Amazon, Facebook и другим.

Вместо этого я сосредоточусь только на языковом аспекте ИИ, а именно на процессе естественного языка или НЛП.

Что такое НЛП и как оно работает

Для тех, кто не знаком с машинным обучением или ИИ, обработка естественного языка, широко известная как НЛП, переводит нашу речь (документы, предложения и слова) в числовые значения, то есть часть речи (существительное, глагол, прилагательное, субъект, объект и т. Д. .), положение и последовательность слов, расстояние между определенными словами и т. д. и пропустите их с помощью компьютерных программ, чтобы вычислить смысл нашей речи. Конечно, это довольно простое упрощение. Если вы действительно хотите узнать больше о НЛП, я настоятельно рекомендую курс НЛП, предлагаемый профессорами Дэном Джурафски и Крисом Мэннингом в Сэндфорде (Стэнфордский университет является пионером в НЛП). Весь курс есть на YouTube.

Как только машины понимают речь, они также могут генерировать речь. Часть понимания также называется пониманием естественного языка (NLU), а часть генерации - генерацией естественного языка (NLG). На данный момент генерация речи все еще сложнее, чем просто часть понимания.

Как видите, НЛП позволяет машинам «читать и понимать в большом масштабе». Когда дело доходит до потенциальных вариантов использования, нет предела. Даже с тем, что у нас есть до сих пор, у нас уже есть несколько убедительных вариантов использования. Вот некоторые распространенные варианты использования:

  • Анализ настроений
  • Извлечение темы
  • Категоризация / классификация контента (популярная)
  • Резюме текста
  • Другие

Например, мы не смогли бы сделать Google переводчик без НЛП. Он также поддерживает чат-ботов и виртуальных помощников (Google Home, Amazon Echo и т. Д.). Некоторые отчеты о погоде, финансовые отчеты и спортивные статьи уже генерируются алгоритмически. Вы можете читать сотни или тысячи длинных отчетов / документов и создавать короткие резюме - то, что в противном случае заняло бы массу человеко-часов. Финансовые компании используют НЛП для анализа того, как каналы Twitter соотносятся с курсами акций. Есть еще много других.

Чтобы дать вам лучшее представление, позвольте мне провести вас через пару быстрых примеров использования, чтобы проиллюстрировать, как это работает.

Анализ настроений

Анализ настроений фокусируется конкретно на полярности нашего языка, например, нравится ли нам или не нравится объект или тема, насколько нам он нравится или не нравится, какая часть его нам нравится или не нравится и т. Д.

Первоначальный анализ тональности был в основном основан на лексике или правилах (также считался подходом, основанным на знаниях). Например, определенным словам, таким как «отлично», присваивается более высокий рейтинг (т.е. ближе к 1,0), чем «хорошо» (т.е. выше 0,5, но ниже 1,0), тогда как «плохо» или «ужасно» оцениваются от 0 до -1. Затем мы можем количественно оценить положительные или отрицательные чувства, выраженные в фазе, предложении или даже в документе. Для этого сначала необходимо создать обширные «своды правил», такие как словарная полярность, отрицательные слова, вспомогательные слова, идиомы и т. Д.

Сейчас мы больше движемся к обучающему подходу или к их комбинации. Первая широко известная исследовательская работа с использованием машинного обучения для анализа настроений (до сих пор широко цитируемая) была опубликована почти 15 лет назад: в 2002 году Бо Панг и Лилиан Ли из Корнельского университета и Шивакумар Вайтьянатан из исследовательского центра IBM Almaden использовали Internet Movie Database (IMDb). ) архив обзоров фильмов для обучения моделей машинного обучения. Они использовали модели Naïve Bayes, Maximum Entropy (MaxEnt) и Support Vector Machine (SVM) (я не буду объяснять, что это за модели - это широко используемые модели, и в Интернете есть множество ресурсов, чтобы узнать, что они из себя представляют). довольно точно предсказывал рейтинги фильмов, просто читая обзоры фильмов.

Этот подход стал огромным шагом вперед, потому что нам не нужно вручную определять все «правила». Машины могут делать это в большом масштабе. Он также может выявить скрытые аспекты (то есть различные особенности продукта) и их рейтинги, чего люди не могут.

Классификатор новостей

Классификатор новостей был первым проектом машинного обучения (ML), который я заказал. Идея довольно проста и распространена: искать в Интернете новости компании, отсеивать «шум» (информацию, которая нам не важна) и классифицировать их по разным категориям. Изначально нам был нужен только один тип информации, но в конечном итоге мы стали его дополнять, добавляя дополнительные категории, например, назначения руководителей, слияния и поглощения и т. Д.

Мы решили использовать модели с открытым исходным кодом и контролируемые модели (контролируемые означает, что люди определяют, какие функции следует анализировать. Например, если нам нужно спрогнозировать стоимость жилья, мы используем человеческие знания, чтобы определить, какие переменные - характеристики, такие как размер, район и т. Д. . являются важной информацией для определения цены на жилье.) Мы собрали пару тысяч новостных статей (изначально без учета социальных сетей) и вручную распределили их по категориям. И затем использовал их для обучения разных моделей.

Мы использовали Python и встроили коды в наше собственное приложение базы данных, которое также написано на языке с открытым исходным кодом. Мы завершили разработку двух моделей: Naïve Bayes и машины опорных векторов (SVM). В конце концов, мы остановились на SVM b / c, он дал нам наилучшие результаты. После того, как инструмент был впервые развернут, мы достигли уровня точности 70% -80%. Ложные срабатывания (новостные ленты, не относящиеся к нам, но созданные через модель) возвращались в модель, чтобы помочь ей «учиться». В итоге мы достигли точности более 90%.

Хотя сама модель была простой, мы многому научились. Самым большим дополнительным преимуществом было изучение того, как нормализовать неструктурированные данные (исходную речь и текст): токенизация, лемматизация, синтаксический анализ и т. Д.

НЛП, почему именно сейчас?

НЛП - более зрелая область ИИ. Частично это связано с тем, что первые фреймворки возникли более 60 или 70 лет назад, когда лингвисты систематически ломали наши языковые шаблоны и структуру. Однако он стал популярным только недавно, потому что все силы, наконец, сошлись воедино - по той же причине, по которой первый двигатель внутреннего сгорания был изобретен в 1790-х годах, а Ford представил свою модель Т только в 1908 году.

Больше данных, удобные данные и правильные данные

Данных больше, потому что мы оставляем больше цифровых следов. Доступ к данным также стал проще: веб-скребки мощные и дешевые; основные сайты социальных сетей имеют API, позволяющие другим пользователям добывать сообщения пользователей (не бесплатно, но очень доступно).

Для начала отметим, что в Интернете есть множество наборов данных (часто бесплатно), которые помогут разработчикам обучать модели машинного обучения. Существует также неправильное представление об объеме необходимых данных: чем больше, тем лучше. Да, если вы используете глубокие нейронные сети, вам нужно много данных. Но часто более важны правильные данные. Например, поставщик искусственного интеллекта недавно сообщил, что для обучения своего виртуального агента ему потребуется всего от одного до двухсот часов стенограмм живых звонков агента / клиентов контакт-центра. Ключ был в использовании звонков только от лучших агентов.

В НЛП чем более узкими и узкими являются темы, тем точнее модели. Например, чат-бота, который занимается урегулированием претензий по автострахованию, намного проще создать, чем бота общего назначения. Подумайте об этом так: у конкретной темы есть свой жаргон и уникальные словосочетания. Легко найти закономерности. Это огромный плюс для отраслевых аналитических компаний. Например, возьмем нашу отрасль: как часто слово «вычисления» следует за словом «облако»? Наверное, в 99% случаев. Но если вы случайно встретите кого-то на улице, за облаком может следовать любое слово: облако девять, облако в небе, облако на горе, вы называете это…

Умные и дешевые инструменты

Времена, когда мы полагались исключительно на базы данных о взаимоотношениях, прошли. Теперь у нас есть инструменты машинного обучения (ML) и обработки естественного языка (NLP) для работы с неструктурированными данными. Нет необходимости заново изобретать колесо: строительные блоки уже есть, и вам просто нужно знать, где их искать.

Сообщество разработчиков ИИ применило подход с открытым исходным кодом, чтобы бесплатно делиться предварительно упакованными кодами машинного обучения. Многие инструменты и наборы обучающих данных предоставляются исследовательскими институтами (например, Стэнфордским), сообществами разработчиков и крупными предприятиями. «Мы не Google» больше не является хорошим оправданием для ИТ-отделов, потому что Google открыла свою платформу ИИ для общественности через API и библиотеки (Tensorflow.)

Даже в лагере проприетарного программного обеспечения, такого как IBM Watson, инструменты искусственного интеллекта основаны на API и относительно доступны.

Легче учиться

Когда я впервые занялся машинным обучением полтора года назад, у меня не было бюджета на специалистов по анализу данных. Это было новым для моих разработчиков - они от внешнего поставщика из Индии. Компания выполнила несколько проектов в области машинного обучения для другого клиента, но они не смогли выделить специалистов для моего проекта. Это была крутая кривая обучения, но мы, наконец, добились прогресса. По совету технического директора стартапа в области маркетинговой аналитики, с которым я познакомился в Сан-Франциско, я отозвал одного разработчика из текущих проектов и отправил его «обратно в школу» на несколько месяцев. Его «школой» была сеть (Coursera, Udacity, YouTube, Google, GitHub и т. Д.). Я сам не умею программировать, даже если от этого зависит моя жизнь, и я не посещал курсы машинного обучения ни в одном кампусе, но все же выучил очень много, просто через онлайн-курсы и просмотр видео на YouTube.

Да, полезно быть очень умным или иметь докторскую степень по математике в Массачусетском технологическом институте, Гарварде, Принстоне или Стэнфорде, но для того, чтобы сдвинуть дело с мертвой точки и создать быстрые сценарии использования, в этом нет необходимости. В сети много материалов. Вам просто нужно проявить любопытство и усердно работать.

Почему важно маркетинговое исследование?

Ожидания клиентов в отношении маркетинговых исследований изменились: они хотят, чтобы опыт работы больше напоминал Google; дни, когда «месяцами ждали и тратят сотни тысяч долларов на эту единственную версию истины» закончились. В настоящее время им нужны достаточно хорошие, но актуальные идеи, но они хотят их быстро и на лету. Если традиционные фирмы, занимающиеся исследованием рынка, не могут этого сделать, они найдут кого-нибудь, кто это сделает.

Поскольку большинство традиционных фирм по исследованию рынка по-прежнему основаны исключительно на рабочей силе, они просто не могут масштабироваться, как технологическая компания. Но с НЛП это возможно.

Альтернатива традиционным исследованиям первичного рынка

Традиционное маркетинговое исследование состоит из первичного и вторичного исследования.

Первичные исследования по существу включают количественные и качественные:

Традиционные количественные исследования (количественные), а именно опросы, зависят от заранее определенных и структурированных ответов с множественным выбором и шкал. В случае с более деликатными темами систематическая ошибка выборки (то есть систематическая ошибка самоотбора) и ошибка ответа (респонденты не заявляют о своих истинных убеждениях) могут сделать результаты ненадежными. Он также упускает из виду ценную информацию из неструктурированных данных, например письменные ответы респондентов, которые предлагают более обширную информацию. Яркий тому пример - неспособность социологов предсказать победу Дональда Трампа на выборах 2016 года.

Качественные исследования, а именно фокус-группы, интервью и т. Д., Дают лучшее понимание, но не могут масштабироваться. Стоимость сбора данных непомерна. Размер выборки слишком мал. И что еще более важно, результаты исследования представлены в неструктурированном формате. Получение информации из стенограмм выполняется вручную - дорого и медленно. Профессионально проводимая фокус-группа обычно стоит от нескольких сотен до пары тысяч долларов за каждый предмет.

НЛП может предложить новые альтернативы или, по крайней мере, дополнить старые методы. Например, анализ тональности может собрать сотни, тысячи и даже миллионы мнений за считанные минуты или часы. Он также может обнаруживать скрытые закономерности, которые люди легко упускают из виду. Например, в прошлом году система искусственного интеллекта MogIA, разработанная индийским стартапом Genic.ai, точно предсказала президентскую победу Трампа, проанализировав 20 миллионов точек данных с таких онлайн-платформ, как Twitter, Google и т. Д.

Автоматизировать вторичные исследования

Вторичное исследование означает извлечение информации из работ других людей (новостные статьи, пресс-релизы, тематические исследования, выступления, видео, социальные сети и т. Д.). В настоящее время это в основном поиск в Интернете. Вероятно, это составляет примерно половину того, что мы делаем. И это касается не только нас: работники умственного труда в целом проводят большую часть своих дней в Интернете.

Хотя Google сделал поиск простым и быстрым, это все еще ручной процесс. Чем больше информации нам нужно найти, тем больше тел нам нужно бросить в нее. Мы можем перенести этот процесс в места с низкими затратами, такие как Индия, но простое добавление все большего числа людей в конечном итоге станет неприемлемым. Кроме того, добавление большего количества людей не обязательно делает поиск более быстрым или точным.

Да, создание дополнительных инструментов автоматизации может облегчить некоторые проблемы, связанные с повторяющимися процессами. Но существующие системы по-прежнему в значительной степени основаны на правилах, например, роботизированная автоматизация процессов (RPA), по крайней мере, большинство существующих инструментов RPA. Существующие системы хороши для структурированных данных, но часто не справляются с неструктурированными данными. Когда мы проводим вторичные исследования, нам все еще нужна человеческая интуиция, чтобы иметь дело с нюансами языка, содержания и контекста. Система, основанная исключительно на правилах, не сработает. Я думаю, что именно здесь инвестирование в НЛП принесет наибольшую прибыль. НЛП предлагает масштабное «чтение и понимание». Например, машины могут читать сотни, тысячи или даже миллионы документов одновременно, извлекать только те, которые нам нужны, или только те части, которые нам нужны, и представлять их в нужном нам формате. У меня были стартапы, которые связывались со мной и обещали автоматизировать от 60% до 70% того, что мы делаем. Хотя я не думаю, что технология уже существует, я считаю, что нынешняя технология НЛП может автоматизировать от 20% до 30% наших существующих процессов.

Использование темных данных

Еще один источник ценной информации, которую мы имеем, - это взаимодействие с нашими клиентами (лицом к лицу, звонки и электронные письма). Мы делимся с ними своими знаниями, но мы также учимся у них - они являются пульсом рынка. Большая часть полученных знаний находится в наших головах. Часть действительно записывается, но в основном это неструктурированные данные, разбросанные по нашим компьютерам, электронной почте, CRM-системам или даже ноутбукам. Это то, что обычно называют темными данными.

Так почему бы нам не использовать их? Неструктурированные данные беспорядочные и шумные. Они бесполезны, если вы не можете легко превратить их в структурированные данные. Пока таких инструментов нет. Но теперь это возможно с НЛП. Очевидно, это предварительная оценка. Возможно, вам придется попробовать несколько разных проектов, пока не выберете нужный.

С чего начать (разные подходы)

Что касается создания более широких возможностей НЛП, вы можете создавать, нанимать, покупать / арендовать или приобретать.

Создавайте собственные, используя открытый исходный код

Поскольку доступно большое количество инструментов и API-интерфейсов ML и NLP с открытым исходным кодом, бесплатно или относительно дешево, вы можете создать эту возможность самостоятельно. Если быть точным, это индивидуальный подход: вы просто СОЗДАЕТЕ шезлонг и вытаскиваете разные инструменты из разных источников. Стоимость в основном будет связана с дизайном и интеграцией.

Вы можете использовать свою внутреннюю команду, внешних поставщиков или их комбинацию. Вам могут помочь стартапы, специализирующиеся на разработке и создании продуктов, связанных с НЛП. Если вы делаете это впервые и руководители ваших бизнес-подразделений плохо разбираются в НЛП или машинном обучении, лучше всего выбрать компанию со значительным присутствием на суше. Это связано с тем, что вам нужно как можно больше взаимодействовать в одном часовом поясе, а также, хотя здесь высоки затраты на рабочую силу, США также являются лидером в области ИИ.

Плюсы и минусы

Вот некоторые плюсы и минусы:

Плюсы:

  • Вы будете владеть этой возможностью
  • Больше настроек и гибкости
  • Больше усилий на этапе проектирования
  • Не привязаны к чьей-то проприетарной системе - область NLP / ML быстро меняется, и каждый день появляются новые бесплатные / дешевые инструменты.
  • Стоимость: это единовременная стоимость сборки, и вы можете увеличить или уменьшить ее; стоимость лицензии низкая, потому что API либо бесплатны, либо очень дешевле

Минусы:

  • Требует, чтобы вы были более практичными и создали некоторую внутреннюю базу знаний НЛП.
  • Все еще требуются месяцы, чтобы встать
  • Скрытые затраты: затраты на техническое обслуживание, модернизацию / усовершенствование в будущем (не только затраты на рабочую силу, но и затраты на нарушение работы бизнеса).

Арендуйте сторонние проприетарные платформы или вступайте в партнерские отношения с компаниями искусственного интеллекта

Другой подход - использовать неконкурентного стороннего поставщика для предоставления данных и анализа. Например, существует довольно много поставщиков программного обеспечения для социальной аналитики.

У большинства этих компаний уже есть длинный список источников данных, включая Twitter (Firehose), Facebook, Instagram, форумы, Google+, новые сайты и т. Д. Они также добавляют больше источников, если вы их запрашиваете. Имейте в виду, что большинство источников открыты и легкодоступны (бесплатные или дешевые для доступа или очистки). Но преимущество в том, что такой поставщик может собрать все вместе в одном канале. Некоторые из них также содержат исторические данные.

Их решения, как правило, есть в готовом виде. Но допускается некоторая настройка. Некоторые также «сдают в аренду» свои алгоритмы, чтобы вы могли вставлять свои внутренние данные в их приложения для анализа. Однако это скорее исключение, чем правило. Кроме того, поскольку компании B2C (например, потребительская электроника, розничная торговля и т. Д.) Намного опережают компании B2B, большинство компаний, занимающихся социальной аналитикой, больше ориентированы на клиентов B2C.

Плюсы и минусы

Плюсы:

  • Готовый к употреблению: не строить с нуля
  • Процесс адаптации проходит быстро и легко.
  • Требуется минимум внутренних ресурсов и талантов для управления проектом

Минусы:

  • Стоимость: повторяющаяся стоимость годовой подписки
  • Заблокируйте вас в их запатентованной системе
  • Мало места для настройки
  • Вы зависите исключительно от способности поставщика обновлять и вводить новшества: область NLP / ML быстро развивается; вы можете пропустить новые бесплатные / дешевые инструменты

Пойдите, приобретите компанию AI

Если у вас есть деньги, самый быстрый способ - приобрести компанию, занимающуюся ИИ. В идеале цель должна иметь:

  • Список (надеюсь) клиентов B2B (это доказывает, что они знают, как продавать это крупным предприятиям)
  • Проверенное решение
  • Команда сильной команды R&D

Очевидно, учитывая, насколько популярным стал искусственный интеллект за последние пару лет, получить что-то по дешевке будет сложно. Другая опасность заключается в том, как это впишется в вашу культуру. Но что еще более важно, если у вас недостаточно опыта в области НЛП или машинного обучения, будет сложно оценить истинную ценность стартапа в области искусственного интеллекта.

Последние мысли

На мой взгляд, лучший подход - начать создавать свои собственные возможности, но с использованием как внутренней команды, так и внешних поставщиков. Это потому, что вам нужно приобрести внутренние способности - понимать НЛП, по крайней мере, на концептуальном уровне - и знать, что хорошо и легко, что нужно иметь, что приятно иметь, и что это чистая научная фантастика. Я рекомендую использовать как внутренних, так и внешних поставщиков, потому что, исходя из моего опыта, обучение ваших собственных людей НЛП занимает больше нескольких месяцев - наличие внешних стартапов, которые будут держать вас за руки, сэкономит месяцы на проектировании и поиске вариантов использования.

Как только ваша организация окунется в НЛП, вы сможете изучить варианты покупки / аренды / партнера и даже приобретения. Без некоторого опыта работы с НЛП сложно понять, что возможно, а что нет.