Вопросы по теме 'tm'
Текстовый файл R и интеллектуальный анализ текста как загрузить данные
Я использую пакет R tm и хочу провести анализ текста. Это один документ, который рассматривается как набор слов.
Я не понимаю документацию о том, как загрузить текстовый файл и создать необходимые объекты, чтобы начать использовать такие...
38696 просмотров
schedule
28.06.2022
Удаление всего, кроме тегов html из корпуса
Я использую пакет tm . У меня есть корпус, полный html-документа, и я хотел бы удалить все, кроме html-тегов. Я пытался сделать это в течение нескольких дней, но, похоже, я не могу найти хорошего решения.
Например, допустим, у меня есть такой...
1667 просмотров
schedule
13.04.2023
R завершение строки / документа / корпуса
Я пытаюсь сделать некоторые изменения в R, но, похоже, он работает только с отдельными документами. Моя конечная цель - это матрица документа терминов, которая показывает частоту каждого термина в документе.
Вот пример:
require(RWeka)...
10548 просмотров
schedule
23.07.2023
Проблемы с strptime()
Я использую функцию strptime() для перехода от строки к struct tm . Однако, когда я проверяю поля, некоторые из них не заполнены. Итак, я проверил справочные страницы, но кажется, что я делаю правильно, поэтому теперь я не понимаю, что происходит...
1355 просмотров
schedule
25.05.2023
Разделенная выборка объектов корпуса RTM
Я использую пакет R tm, пытаясь разделить свой корпус на набор для обучения и набор для тестирования и закодировать их в метаданные для выбора. Как проще всего это сделать (предположим, я пытаюсь разделить образец пополам)?
Вот некоторые вещи,...
5078 просмотров
schedule
19.12.2022
Как рассчитать читаемость в R с пакетом tm
Есть ли в библиотеке tm для этого встроенная функция или она хорошо с ней работает?
Мой текущий корпус загружен в tm примерно так:
s1 <- "This is a long, informative document with real words and sentence structure: introduction to...
3823 просмотров
schedule
15.09.2022
R: добавить заголовок к графике wordcloud / png
У меня есть рабочий код R, который генерирует облако тегов из матрицы терминов-документов.
Теперь я хочу создать целую кучу облаков тегов из многих документов и визуально проверить их позже. Чтобы узнать, к какому документу (-ам)/корпусу...
20198 просмотров
schedule
21.11.2022
R удалить стоп-слова из вектора символов, используя %in%
У меня есть фрейм данных со строками, из которых я хотел бы удалить стоп-слова. Я стараюсь не использовать пакет tm , так как это большой набор данных, а tm работает немного медленнее. Я использую словарь tm stopword .
library(plyr)...
15836 просмотров
schedule
08.01.2023
Пакет R tm, используемый для предиктивной аналитики. Как классифицировать новый документ?
Это общий вопрос о процедурах, касающихся интеллектуального анализа текста. Предположим, у вас есть Корпус документов, классифицированных как Спам/Без Спама. В качестве стандартной процедуры выполняется предварительная обработка данных, удаление...
7735 просмотров
schedule
03.04.2023
Матрица терминов документа CLUTO в tm DocumentTermMatrix
У меня есть матрица терминов документа в формате cluto:
#Document #Term #TotalItem
term-x weight-x term-y weight-y (for only nonzeros terms, a row per document)
Вместо корпуса я хочу создать DocumentTermMatrix(tm package) из этого файла,...
391 просмотров
schedule
03.01.2023
findAssocs и числовой (0)
Я пытаюсь найти слова, связанные с определенным словом в матрице документа термина, используя пакет tm.
Я всегда получаю numeric(0) в качестве примера результата;
findAssocs(myTdm, "evrensel", 0.25)
numeric(0)
numeric(0) , что это...
1019 просмотров
schedule
20.07.2022
как установить автора для каждого документа в корпусе путем анализа идентификатора документа
У меня есть объект tm Corpus, подобный этому:
> summary(corp.eng)
A corpus with 154 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame...
580 просмотров
schedule
28.03.2023
Вычислить энграммы для каждой строки текстовых данных в R
У меня есть столбец данных следующего формата:
Текст
Hello world
Hello
How are you today
I love stackoverflow
blah blah blahdy
Я хотел бы вычислить 3 грамма для каждой строки в этом наборе данных, возможно, используя функцию...
5862 просмотров
schedule
22.02.2023
tm readPDF: ошибка в файле (con, r): невозможно открыть соединение
Я попробовал пример кода, рекомендованный в документации tm::readPDF :
library(tm)
if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {
uri <- system.file(file.path("doc", "tm.pdf"), package = "tm")
pdf <-...
2762 просмотров
schedule
21.06.2022
Добавление пользовательских игнорируемых слов в R tm
У меня есть Корпус в R с использованием пакета tm . Я применяю функцию removeWords для удаления игнорируемых слов
tm_map(abs, removeWords, stopwords("english"))
Есть ли способ добавить мои собственные стоп-слова в этот список?
35613 просмотров
schedule
17.06.2023
R: найти корпусный документ по ID-тэгу и установить дополнительный тэг
Хотите написать теги для документов, находящихся внутри корпуса. Теги хранятся вне корпуса в фрейме данных с определенными уникальными идентификаторами документов.
Задача: (1) взять каждый идентификатор из фрейма данных, (2) найти соответствующий...
916 просмотров
schedule
03.04.2023
tm: читать во фрейме данных, сохранять текстовые идентификаторы, создавать DTM и присоединяться к другому набору данных
Я использую пакет tm.
Скажем, у меня есть фрейм данных из 2 столбцов, 500 строк. Первый столбец - это идентификатор, который генерируется случайным образом и содержит как символ, так и номер: "txF87uyK". Второй столбец представляет собой...
12502 просмотров
schedule
11.06.2023
Как очистить веб-контент, а затем подсчитать частоты слов в R?
Это мой код:
library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/sitemap.xml'
blog <- getURL(url.link)
blog <- htmlParse(blog, encoding = "UTF-8")
titles <- xpathSApply (blog ,"//loc",xmlValue)...
2873 просмотров
schedule
20.03.2023
Использование R tm для поиска тренда между терминами/сущностями
У меня есть корпус текстового документа по вопросу о судьбе загрязняющих веществ и переносе. Я сделал матрицу терминов и ассоциацию терминов. Однако я хотел бы найти нашу «ассоциацию трендов» между терминами. Например, я хотел бы выяснить, увеличит...
1384 просмотров
schedule
05.10.2022
Сообщение об ошибке tm_map в R
Я могу создать корпус в R, но когда я пытаюсь применить к нему функции tm_map, я получаю следующее сообщение об ошибке:
Ошибка в UseMethod("as.PlainTextDocument", x): нет применимого метода для 'as.PlainTextDocument', примененного к объекту класса...
7410 просмотров
schedule
07.05.2023