Вопросы по теме 'tm'

Текстовый файл R и интеллектуальный анализ текста как загрузить данные
Я использую пакет R tm и хочу провести анализ текста. Это один документ, который рассматривается как набор слов. Я не понимаю документацию о том, как загрузить текстовый файл и создать необходимые объекты, чтобы начать использовать такие...
38696 просмотров
schedule 28.06.2022

Удаление всего, кроме тегов html из корпуса
Я использую пакет tm . У меня есть корпус, полный html-документа, и я хотел бы удалить все, кроме html-тегов. Я пытался сделать это в течение нескольких дней, но, похоже, я не могу найти хорошего решения. Например, допустим, у меня есть такой...
1667 просмотров
schedule 13.04.2023

R завершение строки / документа / корпуса
Я пытаюсь сделать некоторые изменения в R, но, похоже, он работает только с отдельными документами. Моя конечная цель - это матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример: require(RWeka)...
10548 просмотров
schedule 23.07.2023

Проблемы с strptime()
Я использую функцию strptime() для перехода от строки к struct tm . Однако, когда я проверяю поля, некоторые из них не заполнены. Итак, я проверил справочные страницы, но кажется, что я делаю правильно, поэтому теперь я не понимаю, что происходит...
1355 просмотров
schedule 25.05.2023

Разделенная выборка объектов корпуса RTM
Я использую пакет R tm, пытаясь разделить свой корпус на набор для обучения и набор для тестирования и закодировать их в метаданные для выбора. Как проще всего это сделать (предположим, я пытаюсь разделить образец пополам)? Вот некоторые вещи,...
5078 просмотров
r tm
schedule 19.12.2022

Как рассчитать читаемость в R с пакетом tm
Есть ли в библиотеке tm для этого встроенная функция или она хорошо с ней работает? Мой текущий корпус загружен в tm примерно так: s1 <- "This is a long, informative document with real words and sentence structure: introduction to...
3823 просмотров
r nlp tm
schedule 15.09.2022

R: добавить заголовок к графике wordcloud / png
У меня есть рабочий код R, который генерирует облако тегов из матрицы терминов-документов. Теперь я хочу создать целую кучу облаков тегов из многих документов и визуально проверить их позже. Чтобы узнать, к какому документу (-ам)/корпусу...
20198 просмотров
schedule 21.11.2022

R удалить стоп-слова из вектора символов, используя %in%
У меня есть фрейм данных со строками, из которых я хотел бы удалить стоп-слова. Я стараюсь не использовать пакет tm , так как это большой набор данных, а tm работает немного медленнее. Я использую словарь tm stopword . library(plyr)...
15836 просмотров
schedule 08.01.2023

Пакет R tm, используемый для предиктивной аналитики. Как классифицировать новый документ?
Это общий вопрос о процедурах, касающихся интеллектуального анализа текста. Предположим, у вас есть Корпус документов, классифицированных как Спам/Без Спама. В качестве стандартной процедуры выполняется предварительная обработка данных, удаление...
7735 просмотров
r tm
schedule 03.04.2023

Матрица терминов документа CLUTO в tm DocumentTermMatrix
У меня есть матрица терминов документа в формате cluto: #Document #Term #TotalItem term-x weight-x term-y weight-y (for only nonzeros terms, a row per document) Вместо корпуса я хочу создать DocumentTermMatrix(tm package) из этого файла,...
391 просмотров
schedule 03.01.2023

findAssocs и числовой (0)
Я пытаюсь найти слова, связанные с определенным словом в матрице документа термина, используя пакет tm. Я всегда получаю numeric(0) в качестве примера результата; findAssocs(myTdm, "evrensel", 0.25) numeric(0) numeric(0) , что это...
1019 просмотров
schedule 20.07.2022

как установить автора для каждого документа в корпусе путем анализа идентификатора документа
У меня есть объект tm Corpus, подобный этому: > summary(corp.eng) A corpus with 154 text documents The metadata consists of 2 tag-value pairs and a data frame Available tags are: create_date creator Available variables in the data frame...
580 просмотров
r tm
schedule 28.03.2023

Вычислить энграммы для каждой строки текстовых данных в R
У меня есть столбец данных следующего формата: Текст Hello world Hello How are you today I love stackoverflow blah blah blahdy Я хотел бы вычислить 3 грамма для каждой строки в этом наборе данных, возможно, используя функцию...
5862 просмотров
schedule 22.02.2023

tm readPDF: ошибка в файле (con, r): невозможно открыть соединение
Я попробовал пример кода, рекомендованный в документации tm::readPDF : library(tm) if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) { uri <- system.file(file.path("doc", "tm.pdf"), package = "tm") pdf <-...
2762 просмотров
schedule 21.06.2022

Добавление пользовательских игнорируемых слов в R tm
У меня есть Корпус в R с использованием пакета tm . Я применяю функцию removeWords для удаления игнорируемых слов tm_map(abs, removeWords, stopwords("english")) Есть ли способ добавить мои собственные стоп-слова в этот список?
35613 просмотров
schedule 17.06.2023

R: найти корпусный документ по ID-тэгу и установить дополнительный тэг
Хотите написать теги для документов, находящихся внутри корпуса. Теги хранятся вне корпуса в фрейме данных с определенными уникальными идентификаторами документов. Задача: (1) взять каждый идентификатор из фрейма данных, (2) найти соответствующий...
916 просмотров
schedule 03.04.2023

tm: читать во фрейме данных, сохранять текстовые идентификаторы, создавать DTM и присоединяться к другому набору данных
Я использую пакет tm. Скажем, у меня есть фрейм данных из 2 столбцов, 500 строк. Первый столбец - это идентификатор, который генерируется случайным образом и содержит как символ, так и номер: "txF87uyK". Второй столбец представляет собой...
12502 просмотров
schedule 11.06.2023

Как очистить веб-контент, а затем подсчитать частоты слов в R?
Это мой код: library(XML) library(RCurl) url.link <- 'http://www.jamesaltucher.com/sitemap.xml' blog <- getURL(url.link) blog <- htmlParse(blog, encoding = "UTF-8") titles <- xpathSApply (blog ,"//loc",xmlValue)...
2873 просмотров
schedule 20.03.2023

Использование R tm для поиска тренда между терминами/сущностями
У меня есть корпус текстового документа по вопросу о судьбе загрязняющих веществ и переносе. Я сделал матрицу терминов и ассоциацию терминов. Однако я хотел бы найти нашу «ассоциацию трендов» между терминами. Например, я хотел бы выяснить, увеличит...
1384 просмотров
schedule 05.10.2022

Сообщение об ошибке tm_map в R
Я могу создать корпус в R, но когда я пытаюсь применить к нему функции tm_map, я получаю следующее сообщение об ошибке: Ошибка в UseMethod("as.PlainTextDocument", x): нет применимого метода для 'as.PlainTextDocument', примененного к объекту класса...
7410 просмотров
r tm
schedule 07.05.2023