Некоторые интересные (и недавние) исследования на основе машинного обучения в социальных сетях и на других веб-сайтах в Интернете

Интернет – мощное средство проверки пульса мира

Интернет стал важным инструментом для выражения идей, маркетинга и общения с людьми. Это рынок, ратуша и почтовое отделение, написанное на языке нулей и единиц, понятном компьютерам. Но есть еще одно (довольно недооцененное) использование социальных сетей и Интернета, и оно получает пульс в мире. Этот твит Джека Дорси после выступления на Совместной сессии 2017 года — отличный пример использования Твиттера в качестве инструмента для прослушивания.

В этом сообщении блога мы суммируем некоторые исследования социальных сетей и других интернет-сайтов, которые демонстрируют, как Интернет может быть мощным инструментом при поиске осмысленной информации о реальном мире. Существует огромный океан данных, и нам нужны последние достижения в области ИИ, чтобы обобщить сигнал в форме, которую люди могут потреблять. Обратите внимание, что многие исследования являются препринтами и могут быть не приняты в текущей форме, но идея состоит в том, чтобы рассказать о возможностях, а не делать обзор.

Анализ настроений масс

Вы можете предсказывать референдумы, используя Twitter Sentiment. Баланс настроений в Твиттере (разница между положительными и отрицательными настроениями) мог бы предсказать, покинет ли Великобритания ЕС. Все другие предсказатели (опросы общественного мнения/политологи) указывали на другой вывод. В Karna-AI мы измеряем тенденции в настроении масс с помощью графиков, на которых можно визуализировать распределение настроений по разным темам, определяемым с помощью алгоритмов глубокого обучения. Мы можем пойти еще дальше, разбив сентимент на эмоции (грусть и гнев считаются негативными сентиментами, но вызывают разные чувства), как мы это сделали в нашем последнем исследовании Оскар 2017. В этом исследовании мы заметили явный всплеск грустных твитов, когда шла память, и заметный всплеск гневных твитов, когда лучшее изображение было объявлено неправильно.

Точно так же анализ активности в твиттере во время ирландского референдума о браке показывает некоторые очень интересные результаты. У них несовершенная оценка настроений (не с использованием машинного обучения или глубокого обучения, а просто на основе встречаемости положительных/отрицательных слов), поэтому они работают над более широкой картиной, разделяя весь твиттер вокруг референдума на несколько сообществ и глядя на совокупность. настроений, которые убедительно указывают на то, что Да станет вероятным исходом референдума.

Выявление сообществ, связанных общими идеологиями

Есть и другие интересные результаты, которые показывают очень меньшее взаимодействие между политически разными сообществами, и люди образуют «гетто» в Твиттере в соответствии со своими политическими идеологиями. У Karna-AI есть инструменты для сегментации онлайн-пользователей и выявления влиятельных лиц в сети, чтобы выяснить важные темы, которые определяют эту сеть.

В этом исследовании авторы показывают, что просто моделируя то, о чем говорит пользователь в твиттере, можно определить его/ее позицию по любому вопросу, даже если пользователь неактивен. Теперь уже доказанный факт, что компьютеры могут анализировать людей лучше, чем другие люди. Таким образом, алгоритмы ИИ могут профилировать самого пользователя или его окружение по категориям, и мы можем легко вывести их позицию из этих категорий. Очень скоро мы запускаем продукт в KarnaAI для моделирования профилей пользователей социальных сетей и возможности группировать и фильтровать пользователей.

Найти эти иглы - это стог сена

Хотя эти исследования работают над общей картиной, есть еще один важный аспект, который мы, возможно, захотим выслушать. Это мнения меньшинства, редкие события или аномалии. Все они фактически представляют собой проблемы классификации текста в машинном обучении. Для работы с наборами данных требуются специальные текстовые классификаторы, где необходимо отделить эти редкие точки данных от обычных, поскольку поиск иголки в стоге сена дает много шума (нерелевантные данные). Эти исследователи обнаруживают положительность в твиттере (которую они считают очень редкой, ‹5%), используя каскадные алгоритмы машинного обучения. Каскадные алгоритмы — это серия алгоритмов, обученных исправлять ошибки предыдущих. Это не ограничивается только позитивом, мы можем слушать людей, говорящих о своей беременности, и можем использовать их для поиска симптомов депрессии среди населения.

Объединение сетевой информации и текстовой информации, а также обучение искусственного интеллекта могут даже помочь генерировать автоматические контекстные ответы, подобные упомянутым в этом исследовании на основе YikYak. Смайлики, еще один компонент социальных сетей, также можно прогнозировать с помощью ИИ по текстовым взаимодействиям.

Определите, как пропаганда возникает и распространяется

Еще одна область интересных исследований — распространение пропаганды и фейковых новостей. Этот анализ учетных записей ИГИЛ в Твиттере перед блокировкой дает очень интересные сведения. Кажется, что небольшие подсети из 100–1000 учетных записей следуют друг за другом и твитят/ретвитят общий сгенерированный контент, чтобы увеличить свое влияние. Еще один возможный вывод — использование ботов для ретвитов. В этой бумаге также предлагается быстрый алгоритм блокировки людей, являющихся основными узлами таких пропагандистских сетей, чтобы остановить распространение того, что она называет киберэпидемиями. Эта бумага дает простой способ откопать сообщества, которые не столь очевидны.

Пока мы говорим о социальных сетях, фейковые новости (и предвзятые не фейковые новости) также являются проблемой в целом в открытой сети. Эта бумага предлагает метод группировки всех материалов, освещаемых в новостях различными источниками, и позволяет общественным активистам сравнивать различные версии и делиться ими, когда они видят предвзятость. Авторы использовали Google, чтобы по-разному освещать одну и ту же новость, но это может быть лучше достигнуто с помощью инструментов аналитики новостей Karna-AI на основе машинного обучения, а также для автоматизации этого процесса. Говоря о социальных волнениях, есть работа по автоматическому прослушиванию планируемых и обсуждаемых в твиттере волнений. Это похоже на проблему иголки в стоге сена, описанную выше.

Анализ и обогащение дискуссий

Я только что говорил о том, какие выводы о реальном мире можно использовать с помощью Twitter, но это не единственная интернет-среда, которая дает нам сигналы. Еще одним важным средством являются дискуссионные форумы. Первый вопрос заключается в том, какие дискуссионные форумы следует учитывать? Исследование дискуссий в Facebook дает нам некоторые сигналы для этого. Оказывается, качественные комментарии привлекают другие качественные комментарии. Хотя этот вывод выглядит довольно очевидным, исследование доказывает, что при отображении комментариев, основанных на социальной обратной связи (лайки в случае Facebook) вместо самого последнего комментария, к исследованию привлекаются комментарии более высокого качества, следовательно, постепенно улучшая качество и избегая спам, троллинг или ненавистные комментарии. Кроме того, динамика постов со слишком большим количеством комментариев отличается, так как спам или оскорбительные комментарии не мешают людям зайти и высказать свое мнение. Широкое использование возможностей машинного обучения необходимо для таких исследований, где комментарии должны постоянно оцениваться по качеству в автоматическом режиме. В Karna-AI у нас есть собственный классификатор намерений, который фильтрует комментарии пользователей по мнениям/отзывам/маркетингу и т. д., чтобы оценивать комментарии и фильтровать нерелевантные комментарии.

Алгоритмы машинного обучения также можно использовать в качестве сортировки для форумов по психическому здоровью, предупреждая об ухудшении состояния пользователей этих форумов. Сети цитирования научных публикаций можно анализировать с помощью машинного обучения, чтобы показать врожденную предвзятость и помочь противостоять таким недостаткам меньшинств и женщин. Интеллектуальный анализ данных в одних и тех же сетях может помочь нам отследить картели цитирования, из-за которых тривиальные публикации публикуются со ссылками на другие тривиальные публикации.

Не только текст, но и изображения дают представление

Благодаря достижениям в области методов глубокого обучения изображений интернет-СМИ, основанные на изображениях, такие как Pinterest, Instagram и веб-сайты электронной коммерции, также могут быть использованы для получения блестящих идей. Например, это исследование группы FeiFei Li использует возможности Image AI для чтения изображений Google Streetview и проведения обзора автомобилей в Соединенных Штатах. Он может подсчитать, какие модели автомобилей он видит, и может составить отчет без участия человека. Следовательно, любой тип опроса, основанный на наблюдениях, может быть автоматизирован, например, расовое распределение местности, интенсивность движения на улице, соотношение детей и взрослых и тому подобные вещи, которые до сих пор требуют больших ручных усилий. Существует еще одно исследование изображений в социальных сетях, которое может помочь идентифицировать такие события, как фестивали, концерты и другие подобные вещи, непосредственно по изображениям, размещенным в социальных сетях. Наша команда провела аналогичное исследование, в ходе которого выявляются общие тенденции в отношении того, как люди взаимодействуют с хэштегом #gopro в Instagrm.

Это очень интересное исследование берет фотографии еды из Instagram, использует ИИ для классификации этих изображений, а затем сравнивает статьи о еде, увиденные на изображениях округа, с общими проблемами, связанными с едой в этом же округе (такими как передозировка алкоголем и диабет).

Это исследование аналогичным образом использует способность классификации изображений для классификации одежды, представленной на веб-сайтах электронной коммерции, по категориям, а затем анализирует модные тенденции с течением времени.

Присоединяйтесь к нам в расширении границ

Одним словом, открытый Интернет дает нам широкие возможности чувствовать пульс окружающего мира. Алгоритмы искусственного интеллекта достаточно созрели, чтобы выступать в качестве помощников, чтобы разобраться в безумном количестве неструктурированных данных, генерируемых в Интернете каждый день.

Karna-AI — это продукт, который помогает вам получать информацию из таких источников, как новости, блоги, форумы и социальные сети, которые можно использовать для исследования рынка, управления репутацией или сравнительного анализа конкурентов . Он генерирует автоматические отчеты на основе ИИ, которые можно использовать для быстрого получения отзывов о вашей стратегии в социальных сетях. Как вы думаете, есть ли что-то, что вы могли бы захотеть отследить за вами Karna AI? Свяжитесь с нами по адресу [email protected]