Приключения в интеллектуальном анализе данных

Inspo

Я учился в аспирантуре в Мельбурне, Виктория, Австралия, где я жил в двухэтажном кирпичном доме с террасой, построенном в викторианские времена. Я любил солнечный утренний кофе, летние «солнечные закуски» на террасе и удобное расположение этого красивого исторического дома, но я не любил зимний холод! Сорокаградусная погода в доме с высокими потолками и теплопоглощающими кирпичами придавала дому ощущение пещеры. Или морозильник. Я уверен, что поселенцам, которые считали юг Виктории сауной, по сравнению с Британскими островами, было комфортно (или они просто использовали четыре камина, которые с тех пор были заблокированы). Но для меня с середины мая по август было нелегко встать с постели или учиться в таком холодном доме.

Тем не менее, объем дома, состоящего из двух этажей с 14-футовыми потолками, был настолько велик, что я не стал включать печь; Кроме того, отсутствие вентиляционных отверстий наверху означало, что тепло никогда не доходило до моей спальни. Я подумал, может быть, я смогу сэкономить на счетах за газ, купив обогреватели всего на пару комнат. Как ленивый американец, которому нравится приобретать товары, нажимая кнопку, я обратился к своему верному старому другу Amazon.

На самом деле вы не можете купить большинство продуктов на Amazon в Австралии из-за ограничений на импорт и высокой стоимости доставки, но я все равно поискал в исследовательских целях. Я быстро обнаружил, что, казалось бы, простую задачу купить обогреватель легче сказать, чем сделать. Я понял, что очень мало знаю о термодинамике (это вообще правильное слово?), И мне нужно было много читать. Сразу я был поражен. Сколько видов обогревателей! Такой вот разброс цен! Конструкция каждого обогревателя предназначена для разных целей, и каждый может иметь разные эффекты - например, один может согреть вас, но полностью увеличить ваш счет за электроэнергию. Мне пришлось проанализировать: какой из них лучше всего подходит для моих нужд? Какие компромиссы мне нужно сделать?

Программное обеспечение и экономика

Я закончил тем, что занимался разработкой программного обеспечения по этой проблеме: многоцелевым поиском продукта, о котором потребитель не обязательно имеет предварительные знания. Раньше люди заходили в магазины Best Buy или Sears и получали прибыль от какого-нибудь торгового представителя в рубашке поло. Теперь в электронной коммерции знания о продукте могут быть получены из обзоров, которые в совокупности могут быть или не могут быть более точными, чем один голос, утверждающий, что обладает знаниями.

Я столкнулся с проблемой с видением того, что может быть полезно для потребителя: веб-приложение, содержащее интерактивные визуализации функций продукта с диаграммой рассеяния. Я изучал экономику в бакалавриате. Что бы микроэкономист сказал о выборе между продуктами в многоцелевом поиске, например, с целями низкой цены и высокого «качества»?

Экономика скважин - это наука о двухмерных линейных диаграммах, таких как спрос и предложение. Микроэкономист может сказать, изобразите все пространство товарного рынка по осям цены и качества. Затем поищите выбросы, которые дадут вам хороший компромисс между ценой и качеством. Та же самая логика может использоваться для любых двух аспектов продукта. Например, способность обогревателя нагреваться до хорошей температуры и ее влияние на ваш счет за электроэнергию.

Такое мышление признает, что не существует такой вещи, как «идеальный» продукт для кого-то с особыми вкусами и несколькими целями, потому что ни один продукт не получит 5/5 баллов по всем параметрам по законам физики и рынка. Лучшее, что мы можем сделать, - это достичь некоторого оптимума.

Но как мы можем определить метки этих осей, не вводя их вручную? И как мы можем оценить каждый продукт по этим осям? Вот тут-то и пригодится интеллектуальный анализ данных.

Развлечение с интеллектуальным анализом данных

В целом проблему можно разбить на две подзадачи:

  1. Определите соответствующие «особенности» или аспекты продукта, о которых нужно знать людям (пометьте оси)
  2. Определите отношение потребителей к каждой особенности или аспекту продукта, как это подразумевается в обзорах (оцените каждый продукт по осям)

Вторая проблема - это, по сути, сентиментальный анализ, который в наши дни настолько распространен, что я не буду вдаваться в подробности о нем. (Полный обзор см. В Панг и Ли.) Я протестировал несколько методов машинного обучения, SentiWordNet, а также просто использовал звездные рейтинги, предоставленные людьми.

Но как определить особенности продукта?

Исследователи работали над этой проблемой более десяти лет, и одной из основополагающих работ стала статья Ху и Лю 2004 года о сборе мнений по обзорам продуктов Amazon. Ху и Лю использовали алгоритм, называемый поиском правил ассоциации, для извлечения таких характеристик продукта, как качество изображения и размер, из отзывов потребителей о цифровой камере. Они также отметили важное наблюдение, что большинство характеристик продукта - это существительные, поэтому они обращаются только к существительным и существительным фразам.

Есть еще много трюков, которые вы можете сделать, применяя такие методы, как кластеризация, анализ ассоциативных правил, классификаторы SVM, тематическое моделирование ...

Но все это делает процесс очень пугающим в информатике, когда исходное предположение простое и должно приводить к простому выводу: когда люди пишут обзоры продуктов, относящихся к одной и той же категории, они все в конечном итоге говорят об одном и том же. По сути, обсуждение сводится к важным характеристикам или аспектам продуктов.

Итак, все, что нам действительно нужно сделать, это найти наиболее часто упоминаемые слова и фразы, агрегированные по продуктам и обзорам, и отфильтровать, чтобы найти только существительные, используя теггер части речи. Я использовал то, что я называю «Франкенштейновским» методом поиска популярных слов, фраз из двух и трех слов, используя несколько иную методологию.

Для отдельных слов я искал популярные слова, но также сравнивал их с основной частью текста, представляющего более «общий» веб-английский (корпус NPS Chat), исходя из предположения, что люди склонны упоминать особенности продукта в обзорах чаще, чем в противном случае.

Для фраз из двух слов я искал наборы слов, которые сильно зависели друг от друга, используя точечную взаимную информацию, хотя и превышающую пороговую частоту.

Я обнаружил, что использование фраз из трех слов приводит к слишком большой избыточности из-за синонимов, поэтому я включил только триграммы с высоким PMI и частотой, которые состоят из важных биграмм (например, «масляный радиатор»).

Для этого потребовалась небольшая настройка пороговых значений, и именно здесь вам пригодится ваш старый добрый человеческий мозг. Остальные предостережения: могут возникнуть синонимы - это, вероятно, должно привести к некоторому сопоставлению на основе тезауруса. Кроме того, люди могут писать слова в несколько иной форме, такой как множественное и единственное число - для этого могут потребоваться дополнительные правила или сравнение корней слов вместо групп букв на этапе интеллектуального анализа данных.

Тем не менее, с помощью метода Франкенштейна я смог найти ряд интересных слов и фраз:

С помощью этой простой стратегии мы немного увеличиваем наши знания и заставляем себя думать о словах и фразах, о которых мы, возможно, не думали раньше. Например, когда я тестировал это на «беспроводном принтере», одной из обнаруженных мною функций было «Google Cloud». Не покупая принтер в течение многих лет, я даже не знал, что это доступная функция, но определенно хотел взглянуть на принтеры с возможностью облачной печати Google.

Кроме того, как только мы проанализируем набор функций, мы создали структуру в наших неструктурированных данных. Оттуда мы можем перейти к анализу настроений и интеллектуальному анализу отношений и перейти к следующему:

к этому:

Другие возможности: исследование рынка

Мое веб-приложение было задумано, чтобы помочь потребителям сделать более информированный выбор, но анализ интеллектуального анализа данных может легко привести нас к полезной информации для производителей, дизайнеров продуктов, маркетологов и других лиц, занимающихся поставками.

В некоторой степени очевидно, что эти обзоры предоставляют мгновенную обратную связь о недостатках продукта, а также полезные предложения, и эта структура агрегирования также экономит много времени маркетологу. При агрегировании по рынку маркетолог также может увидеть, как его продукт конкурирует с конкурентами.

Обзоры также проливают свет на конкретные варианты использования. Я был удивлен, обнаружив, что многие потребители используют обогреватели в ванной. Они ненавидят выходить из душа на холодный воздух. Некоторые даже включают обогреватели за несколько минут до того, как они войдут в ванную утром. Частота появления этого варианта использования, безусловно, мотивирует такие функции, как таймеры и шнуры для безопасного использования в ванной.

Нам по-прежнему приходится проверять текст, чтобы обнаружить подобные истории, но извлечение функций также запускает этот процесс, выявляя места в данных, где мы должны исследовать контекст.

От цифр к творчеству

Тот факт, что исходный текст остается важным, говорит о том, что интеллектуальный анализ данных является мощным средством, но не раскрывает всей человеческой истории. В конце концов, я суммировал числа, что позволило создать быстрые и легкие для чтения визуальные сводки, но я обнаружил, что всегда хотел видеть исходный текст. К счастью, связать их с помощью JavaScript несложно.

Итак, мы рассмотрели часто упоминаемые существительные и их словосочетания. Но как насчет часто упоминаемых слов в?

Мне было очень весело смотреть на более редкие слова в обзорах обогревателей. Многие из «синглтонов» были просто неправильным написанием более очевидных слов, но в других случаях вы начинаете думать, почему, черт возьми, кто-то использовал это слово в обзоре космического обогревателя?

Примеры: сайпан, мусор, консультирование, авиалайнер, самоубийство, мембрана, галактики, голландский, этрусский, вупи, йеллоустонский, ара, винный погреб

Некоторые из них оказались именами собственными, которые потерялись, когда я сделал все слова строчными буквами (например, голландец - это разновидность фургона - многие люди используют обогреватели в своих фургонах или палатках; «винный погреб» было называлось Бодега-Бэй), но это дает веселая игра в безумные библиотеки, поощряющая творчество:

(Мое предположение) «Этот обогреватель был таким же шумным, как авиалайнер, он вызвал у меня посттравматическое стрессовое расстройство, вернув меня в битву за Сайпан. Мне пришлось пойти на консультацию, чтобы не стать самоубийцей ».

Слишком темно?

Я нашел действительно отличные образы и идеи в реальных обзорах, в которых люди проявляли свои творческие способности:

«Наш чихуахуа любит лежать перед ним и впитывать тепло».

«Да, я видел, как [sic] персонаж Вупи Голберг греет руки перед этим вычурным и эффективным обогревателем».

«Я занимаюсь кемпингом на колесах на колесах 14 лет. Мое хобби - это темные удаленные места для фотографирования галактик с помощью телескопа. На высоте 8000 футов может быть очень холодно ».

«Хорошо, дамы, если вы ищете обогреватель, который согреет вас в те ночи, когда ваш мужчина опаздывает, играя в видеоигры или что-то еще, то этот обогреватель - то, что вам нужно! Это отличный вариант для прослушивания, и он никогда не будет жаловаться на драму, которую вы преподносите. Только не обнимайся с этим… »

Если они не подходят для рекламной кампании, я не знаю, что это такое. Изображение чихуахуа, любящего обогреватель, приносит столько тепла холодному металлическому изделию. Шутка о том, что обогреватель лучше, чем мужчина, настолько остроумна. Идея парня, сидящего в Патагонии на высоте 8000 футов, фотографирующего галактики с помощью телескопа, а затем разогревающегося с помощью обогревателя ночью, приносит столько приключений в потенциально скучный продукт.

Этот проект включал компьютерный анализ текста и объединение его в числа, но давайте не будем забывать эти человеческие истории, которые создают объемные эмоциональные ассоциации с помощью всего лишь нескольких самородков.