Публикации по теме 'topic-modeling'


Тематическое моделирование Gensim LDA для обнаружения статей
Использование машинного обучения для создания инструмента исследования Covid-19 Оглавление: Обзор проекта Импорт Метод очистки текста Создание фрейма данных Pandas Обучение модели LDA Создание корпусов подсказок Вычисление тематических распределений Получение связанных статей Проверка Следующие шаги и полезные ссылки Обзор проекта: Целью этого проекта является использование тематического моделирования LDA для поиска статей в научных журналах, связанных с..

Тематическое моделирование с использованием скрытого распределения Дирихле — Описание алгоритма и пример использования
ВВЕДЕНИЕ Человеческий разум хорош или, по крайней мере, способен извлекать контекстную информацию из текстовых данных. Мы можем легко следовать инструкциям по эксплуатации, рецептам из поваренной книги, понимать эмоции из текста и т. д. С другой стороны, машины не способны выполнять такие простые задачи, как эти. Но большая часть всей отрасли «аналитики данных» вращается вокруг извлечения соответствующей информации из необработанных (часто неструктурированных) данных. Среди..

Скрытое распределение Дирихле (LDA): инстинктивная интуиция, лежащая в основе математика и питон ...
В конце концов, научные статьи LDA понять несложно… Авторы Прасун Бисвас и Чандан Дурджа Люди постоянно пытались добраться до основных движущих сил (основных мотивов) любой проблемы. Это одна из основных причин, по которой любые решения для аналитики превосходят другие области по своей красоте. Аналитические решения в большинстве форм пытаются захватить верхние «n» драйверов затронутой переменной или попытаться отнести переменные к определенным категориям. С точки зрения..

Тематическое моделирование — краткое введение
Анализ большого объема неструктурированных текстовых данных является сложной задачей. Поскольку неструктурированные данные реального мира не имеют маркировки, мы не можем использовать алгоритмы обучения с учителем для создания моделей машинного обучения. Таким образом, тематическое моделирование используется для обнаружения тем из заданного немаркированного текста. Значит, мы хотим найти кластеры из неразмеченного текста. Предупреждение: Поскольку мы используем неконтролируемое..

Бросьте кости, чтобы написать письмо
Неформальное введение в вероятностное тематическое моделирование Исследование является важным аспектом анализа данных: оно дает первое представление о том, что происходит с нашим набором данных, и помогает нам принять решение о следующих шагах. Если мы имеем дело с числовыми переменными, такими как возраст или вес , исследование относительно легко: найти минимум, максимум, среднее и медиану переменной уже достаточно, чтобы понять, как эта переменная распределяется по нашей..

Открытие моих любимых тем в Hacker News с NLP
TL; DR : использование NLP (spaCy и Gensim) для тематического моделирования ссылок на избранное Hacker News, очищенных с помощью Selenium. Обожаю Hacker News . Просто взглянув каждый день, вы можете быть в курсе последних событий в области технологий, стартапов и т. Д. Это агрегатор ссылок, где пользователи могут проголосовать за ссылки, которые им больше всего нравятся. Просто и эффективно. Не так давно я проверил, что у него много ссылок, за которые проголосовали (я часто..

Обработка текста для тематического моделирования
Привет! Это короткий и, надеюсь, информативный пост об одном из самых (если не самом ) важных аспектов тематического моделирования . Мусор на входе… Мусор на выходе -Конфуций Я не уверен, сказал ли он это на самом деле (может быть, в философском, более глубоком смысле), но это очень верно, смотрите ли вы на экономические данные, перепись населения, потоки кликов, ленты твиттера или, в нашем случае, научные данные. рефераты журналов. Допустим, вы собрали кучу журнальных..