Публикации по тегам tidytext [r, regex, tidytext, tm, qdap]

Вопросы по теме 'tidytext'

Поиск повторяющихся предложений/слов/фраз по группам с течением времени

У меня есть набор данных, в котором каждый столбец является переменной, а каждая строка представляет собой наблюдение (например, данные временных рядов. Это выглядит так (извиняюсь за формат, но я не могу показать данные): Я хотел бы знать,...

185 просмотров

r regex tidytext tm qdap

06.07.2023

Аккуратный фрейм данных: удаляются немецкие символы

Я использую следующий код для преобразования фрейма данных в аккуратный фрейм данных: replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https" unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"...

161 просмотров

r tidyverse regex tidytext

02.01.2024

Проблемы с зависимостями при установке tidytext на R

Я пытаюсь установить пакет tidytext на R 3.4.0 в OS X El Capitan (версия 10.11.6). Но это приводит к следующим ошибкам с пакетом mnormt (я не понимаю флаг m!): * installing *source* package ‘mnormt’ ... ** package ‘mnormt’ successfully unpacked...

535 просмотров

r tidytext

26.10.2023

Сортировка элемента в документе по аккуратному тексту

Как вы можете видеть в легенде справа, мне нужно переупорядочить его как 1,2,3, ... 64, а не 1,10,11 ..., 8. Моя матрица терминов и документов выглядит следующим образом. Пожалуйста, дайте мне несколько идей, как изменить код. A tibble:...

40 просмотров

rstudio r ggplot2 tidytext

22.03.2022

Могу ли я скомбинировать pairwise_cor и pairwise_count, чтобы получить фи-коэффициент И количество вхождений для каждой пары слов?

Я новичок в R и использую widyr для интеллектуального анализа текста. Я успешно использовал методы, найденные здесь , чтобы получить список одновременно встречающихся слов в каждом разделе текста и их фи-коэффициент. Код следующим образом:...

461 просмотров

r tidytext

27.08.2022

Удалить стоп-слова из фрейма данных

Мои данные уже находятся во фрейме данных с одним токеном на строку. Я хотел бы отфильтровать строки, содержащие стоп-слова. Фрейм данных выглядит так: docID <- c(1,2,2) token <- c('the', 'cat', 'sat') count <- c(10,20,30) df <-...

6864 просмотров

r tidyverse tidyr tidytext

07.07.2022

Добавить новые слова в словарь настроений Bing на языке R

Работаем над анализом некоторых комментариев с помощью R Studio. Сейчас я использую лексику Bing Sentiment из пакета tidytext. У меня есть несколько дополнительных слов, которые я хочу добавить в Bing (во время выполнения или в автономном режиме)....

933 просмотров

rstudio r tidytext

24.02.2023

Анализ тональности для аккуратного текста в R

Я пытаюсь выполнить анализ настроений в R. Я хочу использовать лексику afinn или bing, но проблема в том, что я не могу токенизировать слова. Вот слова, для которых мне нужны сантименты: Итак, есть 6 слов, для которых я хочу выразить...

463 просмотров

r tidyverse sentiment-analysis text-mining tidytext

29.03.2022

Свернуть с начальной и конечной позициями предложения

Новичок в R. Я использую tidytext::unnest_tokens , чтобы разбить длинный текст на отдельные предложения, используя ниже tidy_drugs <- drugstext.raw %>% unnest_tokens(sentence, Section, token="sentences") Итак, я получаю data.frame со...

563 просмотров

r text-mining tidytext

10.06.2024

заменить диапазон чисел отдельными числами в строке символов

Есть ли способ заменить диапазон чисел отдельными числами в строке символов? Число может варьироваться от n до n, скорее всего, от 1 до 15, также возможно от 4 до 10. диапазон может быть указан с помощью a) - a <- "I would like to buy 1-3...

667 просмотров

r text replace tidytext tm

07.03.2023

Tidyverse unnest_tokens не работает внутри функции

У меня есть unnest_tokens функция, которая работает в коде, но как только я помещаю ее в функцию, я не могу заставить ее работать. Я не понимаю, почему это происходит, когда я помещаю его в функцию. данные: id words 1 why...

480 просмотров

r tidyverse function unnest tidytext

14.08.2022

Проблема с токенизацией

Я пытаюсь токенизировать предложение следующим образом. Section <- c("If an infusion reaction occurs, interrupt the infusion.") df <- data.frame(Section) Когда я токенизирую с помощью tidytext и приведенного ниже кода, AA <- df...

200 просмотров

r regex tokenize tidytext

22.02.2023

Сортировка в ggplot с обтеканием граней

Я использовал tidytext и ggplot для вычисления и построения графиков частот биграмм (и tf-idf). Я нанес на график наиболее часто встречающиеся биграммы за четыре временных периода. Однако я не могу понять, как правильно сортировать подсчеты на всех...

1800 просмотров

r ggplot2 facet-wrap tidytext

11.06.2023

Как представить каждое вхождение слова как отдельный вектор tcm в R?

Я ищу эффективный способ создать матрицу совместной встречаемости терминов для (каждого) целевого слова в корпусе, чтобы каждое вхождение слова составляло свой собственный вектор (строку) в tcm , где столбцы - это контекстные слова (т. е. модель...

181 просмотров

r sparse-matrix quanteda tidytext text2vec

26.07.2023

Подробная информация об увеличении применительно к тематическому моделированию

У меня есть вопрос о функции «дополнения» из учебника Сильге и Робинсона «Интеллектуальный анализ текста с помощью R: аккуратный подход». Запустив LDA в корпусе, я применяю «дополнение», чтобы назначить темы для каждого слова. Я получаю...

105 просмотров

r text-mining topic-modeling lda tidytext

16.04.2023

Подсчитайте количество слов, общее количество слов и общее количество уникальных слов в R

У меня есть огромный df , в котором есть doc_id и word , и каждый word может содержать несколько class(Class_1,Class_2,Class_3 ) , поэтому, если слово есть в этом class , я помещаю туда 1 , а если нет, то 0 ОБРАЗЕЦ DF doc_id word...

229 просмотров

r tidyverse data.table dplyr tidytext

19.06.2023

Чтение текстовых файлов в аккуратный текст и добавление метаданных

У меня есть несколько тысяч файлов .txt в каталоге, и я хотел бы прочитать их все в tidytext, где я бы затем добавил столбцы метаданных. Сами имена файлов содержат все метаданные, и мне удалось использовать substr для анализа местоположения, времени,...

241 просмотров

tidytext

11.05.2022

Удаление нграмм, содержащих запрещенные слова, с помощью tidytext

ОБНОВЛЕНИЕ: Спасибо за ваш вклад. Я переписал вопрос и добавил лучший пример, чтобы выделить неявные требования, которые не были рассмотрены в моем первом примере. Вопрос Я ищу общее tidy решение для удаления nрограмм, содержащих стоп-слова....

1108 просмотров

r tidyverse tidytext

21.03.2023

Восстановить исходный идентификатор документа из объекта lda

Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels . Хотя легко извлечь наиболее вероятную...

104 просмотров

r lda tidytext topicmodels

16.09.2022

Как сделать токенизацию с помощью n-gram для файла PDF в R

Я хочу токенизировать PDF-документ с помощью ngrams в R. Я пытался следовать инструкциям здесь по адресу https://www.tidytextmining.com/ngrams.html , но застрять с функцией unnest_tokens() . library(tm) library(dplyr) library(tidytext)...

172 просмотров

r tokenize text-mining tidytext

28.01.2024