Публикации по теме 'gensim'


Upcycle High Cardinality Features с использованием тематического моделирования
Есть какие-нибудь мысли о том, как бы вы использовали приведенные ниже «полуфиксированные» категориальные признаки в предикативной модели? Общие подходы к проектированию признаков включают в себя удаление более низких частотных категорий и/или некоторых видов кодирования. Здесь я собираюсь поделиться альтернативным методом, использующим тематическое моделирование . Краткая информация о наборе данных: это взято из недавнего проекта , в котором нашей команде было поручено..

Word2Vec, Skip-Gram и CBOW
Word2Vec — это популярный алгоритм, используемый для создания вложений слов, которые представляют слова как плотные векторы в непрерывном векторном пространстве. Эти вложения фиксируют семантические и синтаксические отношения между словами и могут использоваться в различных задачах обработки естественного языка. Начнем с модели Continuous Bag of Words (CBOW). Непрерывный набор слов (CBOW) Подготовка данных: начните с предварительной обработки вашего текстового корпуса. Обычно..

Генсим-НЛП… Кто этот парень?
Что ж, когда дело доходит до НЛП (обработки естественного языка), мы все знаем, что в основном есть два основных раздела: .) Понимание естественного языка .) Генерация естественного языка SO Генерация естественного языка, крутая и адренализованная тема, которая в основном концентрируется на тяжелых алгоритмах и разделах. Но, ребята, прежде чем погрузиться в NLG, мы должны подготовить для него базу, я имею в виду NLU (понимание естественного языка). Gensim реализован на Python и..

Word2Vec — Минимальное объяснение
Необходимые условия: машинное обучение, линейная алгебра, исчисление, латекс и программирование на Python. Проблема Поскольку машины не могут понимать слова , мы хотим сгенерировать вектор, содержащий семантические значения каждого слова , чтобы мы могли создавать дополнительные приложения, выполняя операции линейной алгебры над этими векторами. Введение Word2Vec — это один из алгоритмов машинного обучения, переводящий слова в векторы, опубликованный Google в 2013 году . Этот..

Введение в Gensim: вычисление схожести текста
Простое сравнение разных текстов с помощью инструмента Genism Два года назад я создал свой первый проект Python: инструмент, который генерирует оценки сходства между несколькими статьями. В то время я просто использовал словари Python для хранения различных атрибутов текстового файла, таких как частота слов, частота основных слов, длина предложений, пунктуация и т. Д. - и сравнивал их относительно эффективным способом. Благодаря этому проекту Python мне было поручено выполнить..

Обработка текста для тематического моделирования
Привет! Это короткий и, надеюсь, информативный пост об одном из самых (если не самом ) важных аспектов тематического моделирования . Мусор на входе… Мусор на выходе -Конфуций Я не уверен, сказал ли он это на самом деле (может быть, в философском, более глубоком смысле), но это очень верно, смотрите ли вы на экономические данные, перепись населения, потоки кликов, ленты твиттера или, в нашем случае, научные данные. рефераты журналов. Допустим, вы собрали кучу журнальных..

Вложения
Обзор С плюсами и минусами токенизации, рассмотренными в предыдущем уроке, самое время рассмотреть встраивание слов. Так как токены позволяют нам упростить набор слов, которые мы собрали из нашего документа или предварительно обученного словаря; Теперь мы можем сопоставить токены с трехмерным (3D) пространством, которое мы будем называть «пространством встраивания». Вы можете думать о пространстве встраивания как о матрице векторов, но в терминах Python это считается списком..