Простой способ извлечь темы из комментариев пользователей

Как мы хотим помочь компаниям понять, что чувствуют их сотрудники

Импульсные опросы — большой тренд в HR. В этих коротких еженедельных опросах сотрудникам задаются простые вопросы о том, как они себя чувствуют на работе. В Officevibe людям также предлагается оставлять дополнительные отзывы при заполнении анкеты.

И им есть что сказать! Типичный менеджер получает примерно по одному комментарию в месяц от каждого члена своей команды. В средних и крупных компаниях (более 200 сотрудников) количество сообщений быстро выходит из-под контроля, и понимание того, что сотрудники пытаются вам сказать, становится практически невозможным.

Представьте, что вы один из этих перегруженных менеджеров, и у вас так много комментариев для чтения, что важные или деликатные отзывы не учитываются. Члены вашей команды наконец-то получили возможность поделиться своими чувствами, но вы, похоже, не понимаете, что происходит на самом деле. Вы знаете, что информация есть, но вы просто не знаете, с чего начать!

Мы можем использовать ИИ, чтобы дать этим менеджерам сверхчеловеческий слух и убедиться, что их сотрудники чувствуют себя услышанными, независимо от того, сколько у менеджера хлопот. Для решения этой проблемы мы разработали простое решение для неконтролируемой сегментации тем. Мы назвали эту проверку концепции «Проект Outline».

План: Как слово становится темой

Outline упрощает изучение большого количества комментариев пользователей, автоматически извлекая соответствующие темы и тенденции. Например, Outline читает такой комментарий, как Мне нравится новая комната отдыха!, и суммирует его в соответствующие ключевые слова, такие как офис или перерыв. Среди большого количества комментариев эти простые темы выделяют наиболее важные темы, обсуждаемые в наборе данных.

В фоновом режиме Outline просматривает список возможных тем и назначает тему комментарию, когда их значение близко друг к другу. Это стало возможным благодаря модели под названием Word2vec — технологии, разработанной в Google и преобразующей текст в последовательность чисел (также называемых векторами). . Этот процесс, называемый встраиванием слов, является распространенным способом преобразования текста во что-то, понятное компьютеру. Затем Outline может сравнивать значения слов, потому что математическое расстояние между векторами слов при встраивании слов является надежной мерой их сходства.

Как мы создавали Outline

Одним из ключей к нашему решению является то, что мы обучили наши собственные встраивания слов для Word2vec более 4 миллионов + анонимные комментарии пользователей. Когда мы используем собственные вложения, Outline работает нормально. Но когда мы попробовали предварительно обученные эмбеддинги из корпуса Википедии, результаты оказались катастрофическими. Это почему? Мы полагаем, что, поскольку наши вложения обучены комментариям, относящимся только к рабочему месту, они охватывают важные семантические отношения, которые не могут уловить общие вложения. Например, в нашем наборе данных «менеджер» обычно относится к непосредственному руководителю на работе, тогда как в Википедии «менеджером» может быть любой менеджер, например руководитель кампании.

Затем мы составили список общеупотребительных английских слов, которые можно использовать в качестве тем. Мы удалили стоп-слова, слишком часто встречающиеся слова, а также общие слова, такие как «кто угодно». Список достаточно длинный (6000+), чтобы не ограничивать возможные темы. Обратите внимание: поскольку мы находим темы в этом списке, а не в комментариях, комментарии могут быть помечены словами, которых в них нет.

Затем мы рассчитали все векторы для каждого комментария и каждого ключевого слова из списка тем. Комментарии были преобразованы в единый вектор слов путем усреднения векторов всех важных слов внутри комментария. Хотя эта операция может размыть более тонкий смысл предложения, она широко известна как надежная основа на практике.

Удивительно, но простое усреднение словесных вложений всех слов в тексте оказалось надежной основой или функцией для множества задач (Kenter et al., 2016).

Следующим шагом является измерение расстояния между векторами для сравнения семантического сходства между ключевыми словами и комментариями. Мы использовали общую меру для векторов слов, косинусное расстояние. Затем мы эмпирически определили порог значимости; если расстояние между двумя словами было меньше этого порога, то слово считалось темой, описывающей данный конкретный комментарий.

Наконец, мы использовали это расстояние, чтобы назначить темы для комментариев пользователей и построить наше решение.

Быстрый старт для исследования

Outline выводит простое количество комментариев для каждой темы. Наша идея состоит в том, чтобы агрегировать их в течение нескольких месяцев, чтобы показать популярные темы с течением времени. Мы считаем, что компании и их менеджеры выиграют, если смогут быстро оценить, какие темы были наиболее важными, а затем решить, какую тему следует изучить более подробно. Вот макет того, как мы видим, как это происходит.

Для каждой темы вы можете увидеть количество отдельных отзывов, оставленных за определенный период времени. В зависимости от количества найденных тем могут быть доступны несколько страниц.

В следующих двух столбцах «Месячные настроения var.» и «Настроение», полагайтесь на модель анализа настроений, которую мы создали специально для Outline, чтобы предсказать, будут ли комментарии положительными или нет. Я не буду здесь вдаваться в подробности модели настроений; возможно, в будущем сообщении в блоге.

Самая интересная часть Outline — это то, насколько легко просматривать актуальные темы во времени. Например, представьте, что вы просматриваете комментарии пользователей вашего собственного бизнеса и хотите иметь представление о том, как часто и когда люди говорят о стрессе. На следующем графике показан период в конце лета, когда было оставлено много положительных отзывов о стрессе. Просматривая эти конкретные комментарии, вы можете обнаружить, что ваши сотрудники гораздо меньше подвержены стрессу сразу после летних каникул — и можете подумать, например, о введении дополнительных выходных в течение года.

Вывод

Outline был создан для неопытных пользователей, таких как менеджеры и руководители, чтобы помочь им легко изучать большие объемы неструктурированного текста.

Некоторые из преимуществ нашей техники по сравнению с другими моделями неконтролируемой тематической сегментации:

Темы можно извлекать из набора данных любого размера, даже из одной выборки (хотя агрегированные результаты будут более интересными при больших объемах данных).
После обучения модели встраивания слов и расчета векторов обработка даже очень больших наборов данных происходит чрезвычайно быстро (более 4 миллионов комментариев за несколько секунд на ноутбуке).
Темы состоят из отдельных слов и легко интерпретируются по сравнению с другими моделями тем, такими как Скрытое распределение Дирихле (LDA).
Извлеченные темы представляют собой простые точки данных, которые хорошо подходят для анализа тенденций и выявления новых тем.

Мы считаем, что этот метод может быть применим к большому количеству других задач, поскольку он не требует каких-либо знаний в предметной области, вмешательства человека, именования тем или интерпретации для получения значимых результатов.

Оставайтесь на связи, чтобы узнавать новости о других наших проектах в области искусственного интеллекта!

Благодарности. Приложение Outline было создано в сотрудничестве с Хьюго Тремблэ Леду и Анастасией Артемовой. Большое спасибо Хьюго за макеты.

Ссылки:Kenter et al. (2016). Сиамский CBOW: Оптимизация встраивания слов для представления предложений. архив: 1606.04640

Миколов, Томас; и другие. (2013). Эффективная оценка представлений слов в векторном пространстве. arvix: 1301.3781