Вопросы по теме 'tidytext'
Поиск повторяющихся предложений/слов/фраз по группам с течением времени
У меня есть набор данных, в котором каждый столбец является переменной, а каждая строка представляет собой наблюдение (например, данные временных рядов. Это выглядит так (извиняюсь за формат, но я не могу показать данные):
Я хотел бы знать,...
185 просмотров
schedule
06.07.2023
Аккуратный фрейм данных: удаляются немецкие символы
Я использую следующий код для преобразования фрейма данных в аккуратный фрейм данных:
replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https"
unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"...
161 просмотров
schedule
02.01.2024
Проблемы с зависимостями при установке tidytext на R
Я пытаюсь установить пакет tidytext на R 3.4.0 в OS X El Capitan (версия 10.11.6). Но это приводит к следующим ошибкам с пакетом mnormt (я не понимаю флаг m!):
* installing *source* package ‘mnormt’ ...
** package ‘mnormt’ successfully unpacked...
535 просмотров
schedule
26.10.2023
Сортировка элемента в документе по аккуратному тексту
Как вы можете видеть в легенде справа, мне нужно переупорядочить его как 1,2,3, ... 64, а не 1,10,11 ..., 8. Моя матрица терминов и документов выглядит следующим образом. Пожалуйста, дайте мне несколько идей, как изменить код.
A tibble:...
40 просмотров
schedule
22.03.2022
Могу ли я скомбинировать pairwise_cor и pairwise_count, чтобы получить фи-коэффициент И количество вхождений для каждой пары слов?
Я новичок в R и использую widyr для интеллектуального анализа текста. Я успешно использовал методы, найденные здесь , чтобы получить список одновременно встречающихся слов в каждом разделе текста и их фи-коэффициент.
Код следующим образом:...
461 просмотров
schedule
27.08.2022
Удалить стоп-слова из фрейма данных
Мои данные уже находятся во фрейме данных с одним токеном на строку. Я хотел бы отфильтровать строки, содержащие стоп-слова.
Фрейм данных выглядит так:
docID <- c(1,2,2)
token <- c('the', 'cat', 'sat')
count <- c(10,20,30)
df <-...
6864 просмотров
schedule
07.07.2022
Добавить новые слова в словарь настроений Bing на языке R
Работаем над анализом некоторых комментариев с помощью R Studio. Сейчас я использую лексику Bing Sentiment из пакета tidytext.
У меня есть несколько дополнительных слов, которые я хочу добавить в Bing (во время выполнения или в автономном режиме)....
933 просмотров
schedule
24.02.2023
Анализ тональности для аккуратного текста в R
Я пытаюсь выполнить анализ настроений в R. Я хочу использовать лексику afinn или bing, но проблема в том, что я не могу токенизировать слова.
Вот слова, для которых мне нужны сантименты:
Итак, есть 6 слов, для которых я хочу выразить...
463 просмотров
schedule
29.03.2022
Свернуть с начальной и конечной позициями предложения
Новичок в R. Я использую tidytext::unnest_tokens , чтобы разбить длинный текст на отдельные предложения, используя ниже
tidy_drugs <- drugstext.raw %>%
unnest_tokens(sentence, Section, token="sentences")
Итак, я получаю data.frame со...
563 просмотров
schedule
10.06.2024
заменить диапазон чисел отдельными числами в строке символов
Есть ли способ заменить диапазон чисел отдельными числами в строке символов? Число может варьироваться от n до n, скорее всего, от 1 до 15, также возможно от 4 до 10.
диапазон может быть указан с помощью a) -
a <- "I would like to buy 1-3...
667 просмотров
schedule
07.03.2023
Tidyverse unnest_tokens не работает внутри функции
У меня есть unnest_tokens функция, которая работает в коде, но как только я помещаю ее в функцию, я не могу заставить ее работать. Я не понимаю, почему это происходит, когда я помещаю его в функцию.
данные:
id words
1 why...
480 просмотров
schedule
14.08.2022
Проблема с токенизацией
Я пытаюсь токенизировать предложение следующим образом.
Section <- c("If an infusion reaction occurs, interrupt the infusion.")
df <- data.frame(Section)
Когда я токенизирую с помощью tidytext и приведенного ниже кода,
AA <- df...
200 просмотров
schedule
22.02.2023
Сортировка в ggplot с обтеканием граней
Я использовал tidytext и ggplot для вычисления и построения графиков частот биграмм (и tf-idf). Я нанес на график наиболее часто встречающиеся биграммы за четыре временных периода. Однако я не могу понять, как правильно сортировать подсчеты на всех...
1800 просмотров
schedule
11.06.2023
Как представить каждое вхождение слова как отдельный вектор tcm в R?
Я ищу эффективный способ создать матрицу совместной встречаемости терминов для (каждого) целевого слова в корпусе, чтобы каждое вхождение слова составляло свой собственный вектор (строку) в tcm , где столбцы - это контекстные слова (т. е. модель...
181 просмотров
schedule
26.07.2023
Подробная информация об увеличении применительно к тематическому моделированию
У меня есть вопрос о функции «дополнения» из учебника Сильге и Робинсона «Интеллектуальный анализ текста с помощью R: аккуратный подход». Запустив LDA в корпусе, я применяю «дополнение», чтобы назначить темы для каждого слова.
Я получаю...
105 просмотров
schedule
16.04.2023
Подсчитайте количество слов, общее количество слов и общее количество уникальных слов в R
У меня есть огромный df , в котором есть doc_id и word , и каждый word может содержать несколько class(Class_1,Class_2,Class_3 ) , поэтому, если слово есть в этом class , я помещаю туда 1 , а если нет, то 0
ОБРАЗЕЦ DF
doc_id word...
229 просмотров
schedule
19.06.2023
Чтение текстовых файлов в аккуратный текст и добавление метаданных
У меня есть несколько тысяч файлов .txt в каталоге, и я хотел бы прочитать их все в tidytext, где я бы затем добавил столбцы метаданных. Сами имена файлов содержат все метаданные, и мне удалось использовать substr для анализа местоположения, времени,...
241 просмотров
schedule
11.05.2022
Удаление нграмм, содержащих запрещенные слова, с помощью tidytext
ОБНОВЛЕНИЕ: Спасибо за ваш вклад. Я переписал вопрос и добавил лучший пример, чтобы выделить неявные требования, которые не были рассмотрены в моем первом примере.
Вопрос Я ищу общее tidy решение для удаления nрограмм, содержащих стоп-слова....
1108 просмотров
schedule
21.03.2023
Восстановить исходный идентификатор документа из объекта lda
Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels . Хотя легко извлечь наиболее вероятную...
104 просмотров
schedule
16.09.2022
Как сделать токенизацию с помощью n-gram для файла PDF в R
Я хочу токенизировать PDF-документ с помощью ngrams в R. Я пытался следовать инструкциям здесь по адресу https://www.tidytextmining.com/ngrams.html , но застрять с функцией unnest_tokens() .
library(tm)
library(dplyr)
library(tidytext)...
172 просмотров
schedule
28.01.2024