Вопросы по теме 'text2vec'

Как получить таблицу вероятностей тем из text2vec LDA
Тематическое моделирование LDA в пакете text2vec великолепно. Это действительно намного быстрее, чем топикмодель Однако я не знаю, как получить вероятность того, что каждый документ принадлежит каждой теме, как в примере ниже: V1 V2 V3...
1105 просмотров
schedule 18.12.2022

Применение вложений text2vec к новым данным
Я использовал text2vec для создания пользовательских вложений слов из корпуса проприетарных текстовых данных, которые содержат много отраслевого жаргона (поэтому стандартные вложения, подобные тем, которые доступны в Google, не будут работать)....
844 просмотров
schedule 10.04.2023

Как создать матрицу терминов документа в text2vector только из сохраненного списка слов
Каков синтаксис в text2vec для векторизации текстов и достижения dtm только с указанным списком слов? Как векторизовать и создать матрицу терминов документа только по указанным функциям? И если функции не отображаются в тексте, переменная должна...
375 просмотров
schedule 20.12.2022

Совместимость между text2vec и RHadoop
В настоящее время мы используем text2vec для обработки большого набора данных в AWS EC2 (один экземпляр), текстовые данные в будущем будут все больше и больше, мы можем попробовать использовать архитектуру RHadoop (MapReduce) и не знаем, может ли быть...
101 просмотров
schedule 18.04.2023

Ошибка пакета LDA$new конструктора модели text2vec R: ошибка в .subset2(public_bind_env, initialize)(): неиспользуемый аргумент ()
Ошибка: > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (vocabulary = list(term = c("normal", "bobo", "lixo",...
498 просмотров
schedule 19.02.2023

Предварительная обработка текста и моделирование темы с помощью пакета text2vec
У меня есть большое количество документов, и я хочу провести тематическое моделирование с использованием text2vec и LDA (Gibbs Sampling). Шаги, которые мне нужны, следующие (по порядку): Удаление цифр и символов из текста...
1362 просмотров
schedule 17.12.2023

Ngrams с использованием hash_vectorizer в text2vec
Я пытался создать ngrams, используя функцию hash_vectorizer в text2vec, когда заметил, что она не меняет размеры моего dtm с изменением значений. h_vectorizer = hash_vectorizer(hash_size = 2 ^ 14, ngram = c(2L, 10L)) dtm_train =...
434 просмотров
schedule 23.05.2023

R: номер документа text2vec DTM не соответствует номеру исходного документа
Я студент, который очень часто использует text2vec. До прошлого года я без проблем пользовался этой программой. Но сегодня, когда я создаю DTM с использованием функции Parallel, номер документа DTM не совпадает с номером исходного документа....
94 просмотров
schedule 08.07.2023

Как построить модель, используя вложения слов Glove, и предсказать тестовые данные с помощью text2vec в R
Я строю модель классификации текстовых данных на две категории (то есть классифицирую каждый комментарий на 2 категории), используя вложения слов GloVe. У меня есть два столбца, один с текстовыми данными (комментариями), а другой - с двоичной целевой...
1865 просмотров

Преобразование DocumentTermMatrix в dgTMatrix
Я пытаюсь запустить набор данных AssociatedPress из пакета tm через реализацию LDA text2vec . Проблема, с которой я столкнулся, заключается в несовместимости типов данных: AssociatedPress — это tm::DocumentTermMatrix , который, в свою...
743 просмотров
schedule 16.10.2023

В пакете R text2vec - Как темы, сгенерированные моделью LDA, могут быть назначены связанным документам.
Использование пакета text2vec в R-реализованной модели LDA, но мне интересно, как назначить каждый документ темам BELOW HERE is my code: library(stringr) library(rword2vec) library(wordVectors) #install.packages("text2vec") library(text2vec)...
370 просмотров
schedule 25.08.2022

использование text2vec для многоуровневой классификации
Я хочу знать, можно ли использовать пакет text2vec для классификации с несколькими метками, например BinaryRelevance Python в skmultilearn.problem_transform. В настоящее время я имею в виду конвейер, задокументированный по адресу:...
194 просмотров
schedule 27.01.2024

Как представить каждое вхождение слова как отдельный вектор tcm в R?
Я ищу эффективный способ создать матрицу совместной встречаемости терминов для (каждого) целевого слова в корпусе, чтобы каждое вхождение слова составляло свой собственный вектор (строку) в tcm , где столбцы - это контекстные слова (т. е. модель...
181 просмотров
schedule 26.07.2023

преобразовать матрицу R в text2vec dtm
У меня есть R-матрица mat , и я хочу выполнить на ней LDA. Когда я запускаю lda_model$fit_transform(mat, n_iter = 20) , я получаю сообщение об ошибке: Error in super$check_convert_input(x) : don't know how to deal with input of class...
83 просмотров
schedule 31.05.2022

Почему fit_transform и transform дают разные результаты?
Я играл с LDA в пакете text2vec и был сбит с толку, почему fit_transfrom и transform были разными при использовании одних и тех же данных. В документации указано, что преобразование применяет изученную модель к новым данным, но результат...
94 просмотров
schedule 26.03.2023

Ошибка при определении количества тем в модели скрытого распределения Дирихле с использованием библиотеки ldatuning
Это ошибка результата, и я могу сказать, что это потому, что есть по крайней мере один документ без какого-либо термина, но я не понимаю, почему и как я могу это решить. prep_fun = function(x) { x %>% str_to_lower...
117 просмотров
schedule 25.04.2023

Поддержка больших разреженных матриц R
Есть ли поддержка больших разреженных матриц в R? В настоящее время я имею дело с 1,9-мегапиксельной разреженной квадратной матрицей с плотностью около 0.001 . Я хотел провести стресс-тестирование создания этой матрицы в R на моем спотовом...
120 просмотров
schedule 07.04.2023

вложения слов text2vec: составные некоторые токены, но не все
Я использую встраивание слов {text2vec} для создания словаря похожих терминов, относящихся к определенной семантической категории. Можно ли скомпоновать некоторые токены в корпусе, но не все? Например, я хочу рассчитать термины, похожие на «будущее...
48 просмотров
schedule 27.10.2022

Построение графиков LDAvis с использованием токенов фраз вместо токенов отдельных слов
Мой вопрос очень прост. Как с помощью пакета text2vec в R построить графики моделирования тем ldavis с использованием токенов фраз вместо токенов отдельных слов. В настоящее время токенизатор слов tokens = word_tokenizer(tokens) отлично работает,...
69 просмотров
schedule 11.04.2023