Публикации по тегам text2vec

Вопросы по теме 'text2vec'

Как получить таблицу вероятностей тем из text2vec LDA

Тематическое моделирование LDA в пакете text2vec великолепно. Это действительно намного быстрее, чем топикмодель Однако я не знаю, как получить вероятность того, что каждый документ принадлежит каждой теме, как в примере ниже: V1 V2 V3...

1105 просмотров

r lda text2vec

18.12.2022

Применение вложений text2vec к новым данным

Я использовал text2vec для создания пользовательских вложений слов из корпуса проприетарных текстовых данных, которые содержат много отраслевого жаргона (поэтому стандартные вложения, подобные тем, которые доступны в Google, не будут работать)....

844 просмотров

r text2vec

10.04.2023

Как создать матрицу терминов документа в text2vector только из сохраненного списка слов

Каков синтаксис в text2vec для векторизации текстов и достижения dtm только с указанным списком слов? Как векторизовать и создать матрицу терминов документа только по указанным функциям? И если функции не отображаются в тексте, переменная должна...

375 просмотров

r text-mining text2vec

20.12.2022

Совместимость между text2vec и RHadoop

В настоящее время мы используем text2vec для обработки большого набора данных в AWS EC2 (один экземпляр), текстовые данные в будущем будут все больше и больше, мы можем попробовать использовать архитектуру RHadoop (MapReduce) и не знаем, может ли быть...

101 просмотров

text2vec

18.04.2023

Ошибка пакета LDA$new конструктора модели text2vec R: ошибка в .subset2(public_bind_env, initialize)(): неиспользуемый аргумент ()

Ошибка: > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (vocabulary = list(term = c("normal", "bobo", "lixo",...

498 просмотров

r nlp text-mining lda text2vec

19.02.2023

Предварительная обработка текста и моделирование темы с помощью пакета text2vec

У меня есть большое количество документов, и я хочу провести тематическое моделирование с использованием text2vec и LDA (Gibbs Sampling). Шаги, которые мне нужны, следующие (по порядку): Удаление цифр и символов из текста...

1362 просмотров

r topic-modeling synonym tm text2vec

17.12.2023

Ngrams с использованием hash_vectorizer в text2vec

Я пытался создать ngrams, используя функцию hash_vectorizer в text2vec, когда заметил, что она не меняет размеры моего dtm с изменением значений. h_vectorizer = hash_vectorizer(hash_size = 2 ^ 14, ngram = c(2L, 10L)) dtm_train =...

434 просмотров

r hash text-mining text2vec

23.05.2023

R: номер документа text2vec DTM не соответствует номеру исходного документа

Я студент, который очень часто использует text2vec. До прошлого года я без проблем пользовался этой программой. Но сегодня, когда я создаю DTM с использованием функции Parallel, номер документа DTM не совпадает с номером исходного документа....

94 просмотров

r text2vec

08.07.2023

Как построить модель, используя вложения слов Glove, и предсказать тестовые данные с помощью text2vec в R

Я строю модель классификации текстовых данных на две категории (то есть классифицирую каждый комментарий на 2 категории), используя вложения слов GloVe. У меня есть два столбца, один с текстовыми данными (комментариями), а другой - с двоичной целевой...

1865 просмотров

r word-embedding word2vec text-classification text2vec

21.03.2022

Преобразование DocumentTermMatrix в dgTMatrix

Я пытаюсь запустить набор данных AssociatedPress из пакета tm через реализацию LDA text2vec . Проблема, с которой я столкнулся, заключается в несовместимости типов данных: AssociatedPress — это tm::DocumentTermMatrix , который, в свою...

743 просмотров

r tm text2vec

16.10.2023

В пакете R text2vec - Как темы, сгенерированные моделью LDA, могут быть назначены связанным документам.

Использование пакета text2vec в R-реализованной модели LDA, но мне интересно, как назначить каждый документ темам BELOW HERE is my code: library(stringr) library(rword2vec) library(wordVectors) #install.packages("text2vec") library(text2vec)...

370 просмотров

nlp topic-modeling lda text2vec

25.08.2022

использование text2vec для многоуровневой классификации

Я хочу знать, можно ли использовать пакет text2vec для классификации с несколькими метками, например BinaryRelevance Python в skmultilearn.problem_transform. В настоящее время я имею в виду конвейер, задокументированный по адресу:...

194 просмотров

r sentiment-analysis text2vec

27.01.2024

Как представить каждое вхождение слова как отдельный вектор tcm в R?

Я ищу эффективный способ создать матрицу совместной встречаемости терминов для (каждого) целевого слова в корпусе, чтобы каждое вхождение слова составляло свой собственный вектор (строку) в tcm , где столбцы - это контекстные слова (т. е. модель...

181 просмотров

r sparse-matrix quanteda tidytext text2vec

26.07.2023

преобразовать матрицу R в text2vec dtm

У меня есть R-матрица mat , и я хочу выполнить на ней LDA. Когда я запускаю lda_model$fit_transform(mat, n_iter = 20) , я получаю сообщение об ошибке: Error in super$check_convert_input(x) : don't know how to deal with input of class...

83 просмотров

r text-mining text2vec

31.05.2022

Почему fit_transform и transform дают разные результаты?

Я играл с LDA в пакете text2vec и был сбит с толку, почему fit_transfrom и transform были разными при использовании одних и тех же данных. В документации указано, что преобразование применяет изученную модель к новым данным, но результат...

94 просмотров

r nlp lda text2vec

26.03.2023

Ошибка при определении количества тем в модели скрытого распределения Дирихле с использованием библиотеки ldatuning

Это ошибка результата, и я могу сказать, что это потому, что есть по крайней мере один документ без какого-либо термина, но я не понимаю, почему и как я могу это решить. prep_fun = function(x) { x %>% str_to_lower...

117 просмотров

text-mining lda text2vec

25.04.2023

Поддержка больших разреженных матриц R

Есть ли поддержка больших разреженных матриц в R? В настоящее время я имею дело с 1,9-мегапиксельной разреженной квадратной матрицей с плотностью около 0.001 . Я хотел провести стресс-тестирование создания этой матрицы в R на моем спотовом...

120 просмотров

r sparse-matrix reticulate text2vec

07.04.2023

вложения слов text2vec: составные некоторые токены, но не все

Я использую встраивание слов {text2vec} для создания словаря похожих терминов, относящихся к определенной семантической категории. Можно ли скомпоновать некоторые токены в корпусе, но не все? Например, я хочу рассчитать термины, похожие на «будущее...

48 просмотров

nlp tokenize word-embedding text2vec

27.10.2022

Построение графиков LDAvis с использованием токенов фраз вместо токенов отдельных слов

Мой вопрос очень прост. Как с помощью пакета text2vec в R построить графики моделирования тем ldavis с использованием токенов фраз вместо токенов отдельных слов. В настоящее время токенизатор слов tokens = word_tokenizer(tokens) отлично работает,...

69 просмотров

r pyldavis lda text2vec

11.04.2023