Вопросы по теме 'term-document-matrix'

Матрица терминов документа и сходство косинусов в Python
У меня есть следующая ситуация, которую я хочу решить, используя Python (предпочтительно используя numpy и scipy ): Коллекция документов, которые я хочу преобразовать в матрицу документов с разреженными терминами. Извлеките разреженное...
7529 просмотров
schedule 08.06.2022

Включение всех токенов в матрицу термин-документ в пакет R tm
Я пытаюсь создать матрицу терминов-документов с помощью функции TermDocumentMatrix пакета tm в R и обнаружил, что некоторые слова не включены. > library(tm) > tdm <- TermDocumentMatrix(Corpus(VectorSource("The book is of great...
1610 просмотров
schedule 30.07.2022

Более эффективные средства создания корпуса и DTM с 4 млн строк.
В моем файле более 4 миллионов строк, и мне нужен более эффективный способ преобразования моих данных в матрицу терминов корпуса и документа, чтобы я мог передать их байесовскому классификатору. Рассмотрим следующий код: library(tm) GetCorpus...
12231 просмотров

TermDocumentMatrix иногда выдает ошибку
Я создаю облако слов на основе твитов различных спортивных команд. Этот код успешно выполняется примерно 1 раз из 10: handle <- 'arsenal' txt <- searchTwitter(handle,n=1000,lang='en') t <- sapply(txt,function(x) x$getText()) t <-...
4357 просмотров
schedule 05.05.2023

Создание матрицы терминов документа в R
Мне нужно создать матрицу документов для себя, своих подписчиков в Твиттере и их подписчиков. Нам нужно создать это без использования пакета tm. на данный момент у нас есть следующие переменные: список l : содержит всех подписчиков...
911 просмотров
schedule 28.03.2024

Как создать облака слов для текстовых файлов в каталоге в R
Я пытаюсь создать облако слов для каждого текстового файла в каталоге. Это четыре заявления президента. Я продолжаю получать следующее сообщение: > cname <- file.path("C:", "texts") > cname [1] "C:/texts" > cname <-...
1937 просмотров

Исключить выбросы в colSums для матрицы Term Document Matrix в R
Я создал матрицу документов терминов «myDtm» из набора ключевых слов, содержащихся в больших коллекциях патентов. Я хочу получить упорядоченный список патентов типа Top 100 с наибольшей частотой ключевых слов. Строки кода myDtm <-...
202 просмотров

данные твиттера ‹- ошибка в termdocumentmatrix
# search for a term in twitter rdmTweets <- searchTwitteR("machine learning", n=500, lang="en") dtm.control <- list( tolower = TRUE, removePunctuation = TRUE, removeNumbers = TRUE, removestopWords = TRUE, stemming =...
1224 просмотров
schedule 09.06.2023

R Как сохранить пунктуацию с помощью TermDocumentMatrix()
У меня есть большой фрейм данных, в котором я идентифицирую шаблоны в строках, а затем извлекаю их. Я предоставил небольшое подмножество, чтобы проиллюстрировать мою задачу. Я генерирую свои шаблоны, создавая TermDocumentMatrix с несколькими...
852 просмотров
schedule 09.12.2023

Разница между матрицами терминов документа
Предположим, у меня есть набор 100 документов, 70 по политике и 30 по математике (странная комбинация, я это знаю). Моя цель — представить их на xy с помощью таких методов, как анализ многомерного масштабирования, сетевой анализ, сом и т. д....
533 просмотров
schedule 31.03.2022

R построить матрицу терминов документа, как сопоставить словари, значения которых состоят из фраз, разделенных пробелами
При интеллектуальном анализе текста с использованием R после повторной обработки текстовых данных нам необходимо создать матрицу терминов документа для дальнейшего изучения. Но, как и в китайском, в английском также есть некоторые определенные фазы,...
749 просмотров

R: ошибка при создании объекта termDocumentMatrix()
Вот мой код, который я использовал для создания объекта termdocumentmatrix для обучающих данных: text_train = iconv(data_train$SentimentText, "UTF-8", "ASCII", sub = "") corpus_train = Corpus(VectorSource(text_train)) tdm_train =...
1054 просмотров
schedule 02.07.2023

Создание N-грамм с помощью tm и RWeka — работает с VCorpus, но не с Corpus
Следуя многочисленным руководствам по созданию biGram с использованием пакетов 'tm' и 'RWeka', я был разочарован тем, что в tdm возвращались только 1-Gram . . Путем долгих проб и ошибок я обнаружил, что надлежащее функционирование достигается с...
3487 просмотров
schedule 26.08.2022

Матрица словесных терминов
Я хотел бы создать матрицу Word из некоторых твитов, каждое слово из твита должно быть новой переменной и заполняться 1 только для слов, которые соответствуют этому тексту в твите. x <- data.frame("Tweet" = c("hi all","I need help"), "N" = 1,...
272 просмотров
schedule 09.08.2022

Функция матрицы терминов документа, возвращающая 0 при применении матрицы терминов документа
У меня есть корпус из 600 текстовых файлов, которые я хочу извлечь из него каждую числовую комбинацию после термина mim и создать document term matrix , чтобы найти frequencies per file .. Я использовал этот код, он извлек все нужные термины, но...
114 просмотров