Публикации по теме 'topic-modeling'


Сходство текста с встраиванием слов в Gensim
Как добиться нужного сходства? Встраивание слов — это тип представления слов, который позволяет словам со схожим значением иметь аналогичное представление. Существует множество способов найти похожие слова/документы с помощью библиотеки обработки естественного языка Gensim с открытым исходным кодом. В этой статье я представлю обзор современных вложений слов, таких как Word2vec от Google, FastText от Facebook, и рассмотрю, какие бизнес-задачи подходят для них лучше всего...

Тематическое моделирование с помощью политических текстов
Часть II серии НЛП и текстовой аналитики — с использованием LDA Добро пожаловать во вторую часть нашей серии статей об НЛП и текстовой аналитике! Если у вас еще не было возможности, пожалуйста, прочитайте первую часть этой серии здесь . Подводя итог нашему прогрессу, мы начали с корпуса политических работ, таких как Государь Макиавелли, Записки федералистов Гамильтона/Мэдисона/Джея и Коммунистический манифест Маркса/Энгельса. Из этих работ мы получили текстовые таблицы и..

Кластерный опрос для тематического моделирования
Приветствую, товарищи ученые! Вам интересно погрузиться в огромный мир алгоритмов кластеризации и их использования в тематическом моделировании? Эти уважаемые алгоритмы, принадлежащие к категории неконтролируемого машинного обучения, способны с большой точностью группировать схожие точки данных в кластеры. А когда дело доходит до анализа большой коллекции документов, алгоритмы кластеризации могут оказаться весьма полезными для выявления доминирующих тем или тем. Как, спросите вы?..

Выявление продавцов незаконных наркотиков на Soundcloud.com с использованием скрытого распределения Дирихле
Тематическое моделирование комментариев Soundcloud.com с использованием PyCaret Введение Ранее я разработал структуру для выявления продавцов рекламы запрещенных наркотиков на Soundcloud.com. Эта структура извлекала комментарии и выявляла комментарии, рекламирующие наркотики, с помощью простого поиска по ключевым словам. Хотя эта структура хорошо себя зарекомендовала из-за схожей структуры комментариев, я хотел попытаться улучшить ее, используя скрытое распределение Дирихле. Скрытое..

Что упоминается в обзоре: Неконтролируемое извлечение аспектов
Модель нейронного внимания, опубликованная в Модель неконтролируемого нейронного внимания для извлечения аспектов »в ACL 2017. Авторы: Руидан Хе, Ви Сон Ли, Хви Ту Нг, Даниэль Дальмайер Проблема под рукой? Чтобы извлечь аспектные термины , упомянутые в данном фрагменте текста, обычно используются обзоры. Мы пили шампанское и икру и чувствовали себя принцессами. Условия использования: шампанское, икра и Категория аспектов: еда Это место обычно очень..

Скрытое распределение Дирихле (LDA): руководство по подходу вероятностного моделирования для обнаружения темы
Реализация скрытого распределения Дирихле в Python Скрытое распределение Дирихле (LDA) - один из наиболее распространенных алгоритмов тематического моделирования. LDA была предложена Дж. К. Притчардом, М. Стивенсом и П. Доннелли в 2000 году и вновь открыта Дэвидом М. Блей, Эндрю Й. Нг и Майклом И. Джорданом в 2003 году. В этой статье я попытаюсь дать вам представление о том, что тематическое моделирование есть. Мы узнаем, как работает LDA, и, наконец, попробуем реализовать нашу..

Автоматический генератор списков воспроизведения песен
Арка Саркар, Панкил Калра и Дакш Тхапар, Машинное обучение (CSE343, ECE343) из Института информационных технологий Индрапрастха, Дели. С ростом популярности сервисов потоковой передачи музыки, таких как Spotify, Apple Music и Wynk, количество песен во всем мире резко возросло. Создание персонализированных списков воспроизведения для пользователей стало утомительным и сложным, поскольку оно включает индивидуальное прослушивание различных песен и их категоризацию на основе их звуковых..