Вопросы по теме 'term-document-matrix'
Матрица терминов документа и сходство косинусов в Python
У меня есть следующая ситуация, которую я хочу решить, используя Python (предпочтительно используя numpy и scipy ):
Коллекция документов, которые я хочу преобразовать в матрицу документов с разреженными терминами.
Извлеките разреженное...
7529 просмотров
schedule
08.06.2022
Включение всех токенов в матрицу термин-документ в пакет R tm
Я пытаюсь создать матрицу терминов-документов с помощью функции TermDocumentMatrix пакета tm в R и обнаружил, что некоторые слова не включены.
> library(tm)
> tdm <- TermDocumentMatrix(Corpus(VectorSource("The book is of great...
1610 просмотров
schedule
30.07.2022
Более эффективные средства создания корпуса и DTM с 4 млн строк.
В моем файле более 4 миллионов строк, и мне нужен более эффективный способ преобразования моих данных в матрицу терминов корпуса и документа, чтобы я мог передать их байесовскому классификатору.
Рассмотрим следующий код:
library(tm)
GetCorpus...
12231 просмотров
schedule
06.06.2022
TermDocumentMatrix иногда выдает ошибку
Я создаю облако слов на основе твитов различных спортивных команд. Этот код успешно выполняется примерно 1 раз из 10:
handle <- 'arsenal'
txt <- searchTwitter(handle,n=1000,lang='en')
t <- sapply(txt,function(x) x$getText())
t <-...
4357 просмотров
schedule
05.05.2023
Создание матрицы терминов документа в R
Мне нужно создать матрицу документов для себя, своих подписчиков в Твиттере и их подписчиков.
Нам нужно создать это без использования пакета tm.
на данный момент у нас есть следующие переменные:
список l : содержит всех подписчиков...
911 просмотров
schedule
28.03.2024
Как создать облака слов для текстовых файлов в каталоге в R
Я пытаюсь создать облако слов для каждого текстового файла в каталоге. Это четыре заявления президента. Я продолжаю получать следующее сообщение:
> cname <- file.path("C:", "texts")
> cname
[1] "C:/texts"
> cname <-...
1937 просмотров
schedule
08.06.2022
Исключить выбросы в colSums для матрицы Term Document Matrix в R
Я создал матрицу документов терминов «myDtm» из набора ключевых слов, содержащихся в больших коллекциях патентов. Я хочу получить упорядоченный список патентов типа Top 100 с наибольшей частотой ключевых слов.
Строки кода
myDtm <-...
202 просмотров
schedule
12.06.2023
данные твиттера ‹- ошибка в termdocumentmatrix
# search for a term in twitter
rdmTweets <- searchTwitteR("machine learning", n=500, lang="en")
dtm.control <- list(
tolower = TRUE,
removePunctuation = TRUE,
removeNumbers = TRUE,
removestopWords = TRUE,
stemming =...
1224 просмотров
schedule
09.06.2023
R Как сохранить пунктуацию с помощью TermDocumentMatrix()
У меня есть большой фрейм данных, в котором я идентифицирую шаблоны в строках, а затем извлекаю их. Я предоставил небольшое подмножество, чтобы проиллюстрировать мою задачу. Я генерирую свои шаблоны, создавая TermDocumentMatrix с несколькими...
852 просмотров
schedule
09.12.2023
Разница между матрицами терминов документа
Предположим, у меня есть набор 100 документов, 70 по политике и 30 по математике (странная комбинация, я это знаю). Моя цель — представить их на xy с помощью таких методов, как анализ многомерного масштабирования, сетевой анализ, сом и т. д....
533 просмотров
schedule
31.03.2022
R построить матрицу терминов документа, как сопоставить словари, значения которых состоят из фраз, разделенных пробелами
При интеллектуальном анализе текста с использованием R после повторной обработки текстовых данных нам необходимо создать матрицу терминов документа для дальнейшего изучения. Но, как и в китайском, в английском также есть некоторые определенные фазы,...
749 просмотров
schedule
29.12.2022
R: ошибка при создании объекта termDocumentMatrix()
Вот мой код, который я использовал для создания объекта termdocumentmatrix для обучающих данных:
text_train = iconv(data_train$SentimentText, "UTF-8", "ASCII", sub = "")
corpus_train = Corpus(VectorSource(text_train))
tdm_train =...
1054 просмотров
schedule
02.07.2023
Создание N-грамм с помощью tm и RWeka — работает с VCorpus, но не с Corpus
Следуя многочисленным руководствам по созданию biGram с использованием пакетов 'tm' и 'RWeka', я был разочарован тем, что в tdm возвращались только 1-Gram . . Путем долгих проб и ошибок я обнаружил, что надлежащее функционирование достигается с...
3487 просмотров
schedule
26.08.2022
Матрица словесных терминов
Я хотел бы создать матрицу Word из некоторых твитов, каждое слово из твита должно быть новой переменной и заполняться 1 только для слов, которые соответствуют этому тексту в твите.
x <- data.frame("Tweet" = c("hi all","I need help"), "N" = 1,...
272 просмотров
schedule
09.08.2022
Функция матрицы терминов документа, возвращающая 0 при применении матрицы терминов документа
У меня есть корпус из 600 текстовых файлов, которые я хочу извлечь из него каждую числовую комбинацию после термина mim и создать document term matrix , чтобы найти frequencies per file .. Я использовал этот код, он извлек все нужные термины, но...
114 просмотров
schedule
15.05.2023