Вопросы по теме 'tidytext'

Поиск повторяющихся предложений/слов/фраз по группам с течением времени
У меня есть набор данных, в котором каждый столбец является переменной, а каждая строка представляет собой наблюдение (например, данные временных рядов. Это выглядит так (извиняюсь за формат, но я не могу показать данные): Я хотел бы знать,...
185 просмотров
schedule 06.07.2023

Аккуратный фрейм данных: удаляются немецкие символы
Я использую следующий код для преобразования фрейма данных в аккуратный фрейм данных: replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT|https" unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"...
161 просмотров
schedule 02.01.2024

Проблемы с зависимостями при установке tidytext на R
Я пытаюсь установить пакет tidytext на R 3.4.0 в OS X El Capitan (версия 10.11.6). Но это приводит к следующим ошибкам с пакетом mnormt (я не понимаю флаг m!): * installing *source* package ‘mnormt’ ... ** package ‘mnormt’ successfully unpacked...
535 просмотров
schedule 26.10.2023

Сортировка элемента в документе по аккуратному тексту
Как вы можете видеть в легенде справа, мне нужно переупорядочить его как 1,2,3, ... 64, а не 1,10,11 ..., 8. Моя матрица терминов и документов выглядит следующим образом. Пожалуйста, дайте мне несколько идей, как изменить код. A tibble:...
40 просмотров
schedule 22.03.2022

Могу ли я скомбинировать pairwise_cor и pairwise_count, чтобы получить фи-коэффициент И количество вхождений для каждой пары слов?
Я новичок в R и использую widyr для интеллектуального анализа текста. Я успешно использовал методы, найденные здесь , чтобы получить список одновременно встречающихся слов в каждом разделе текста и их фи-коэффициент. Код следующим образом:...
461 просмотров
schedule 27.08.2022

Удалить стоп-слова из фрейма данных
Мои данные уже находятся во фрейме данных с одним токеном на строку. Я хотел бы отфильтровать строки, содержащие стоп-слова. Фрейм данных выглядит так: docID <- c(1,2,2) token <- c('the', 'cat', 'sat') count <- c(10,20,30) df <-...
6864 просмотров
schedule 07.07.2022

Добавить новые слова в словарь настроений Bing на языке R
Работаем над анализом некоторых комментариев с помощью R Studio. Сейчас я использую лексику Bing Sentiment из пакета tidytext. У меня есть несколько дополнительных слов, которые я хочу добавить в Bing (во время выполнения или в автономном режиме)....
933 просмотров
schedule 24.02.2023

Анализ тональности для аккуратного текста в R
Я пытаюсь выполнить анализ настроений в R. Я хочу использовать лексику afinn или bing, но проблема в том, что я не могу токенизировать слова. Вот слова, для которых мне нужны сантименты: Итак, есть 6 слов, для которых я хочу выразить...
463 просмотров

Свернуть с начальной и конечной позициями предложения
Новичок в R. Я использую tidytext::unnest_tokens , чтобы разбить длинный текст на отдельные предложения, используя ниже tidy_drugs <- drugstext.raw %>% unnest_tokens(sentence, Section, token="sentences") Итак, я получаю data.frame со...
563 просмотров
schedule 10.06.2024

заменить диапазон чисел отдельными числами в строке символов
Есть ли способ заменить диапазон чисел отдельными числами в строке символов? Число может варьироваться от n до n, скорее всего, от 1 до 15, также возможно от 4 до 10. диапазон может быть указан с помощью a) - a <- "I would like to buy 1-3...
667 просмотров
schedule 07.03.2023

Tidyverse unnest_tokens не работает внутри функции
У меня есть unnest_tokens функция, которая работает в коде, но как только я помещаю ее в функцию, я не могу заставить ее работать. Я не понимаю, почему это происходит, когда я помещаю его в функцию. данные: id words 1 why...
480 просмотров
schedule 14.08.2022

Проблема с токенизацией
Я пытаюсь токенизировать предложение следующим образом. Section <- c("If an infusion reaction occurs, interrupt the infusion.") df <- data.frame(Section) Когда я токенизирую с помощью tidytext и приведенного ниже кода, AA <- df...
200 просмотров
schedule 22.02.2023

Сортировка в ggplot с обтеканием граней
Я использовал tidytext и ggplot для вычисления и построения графиков частот биграмм (и tf-idf). Я нанес на график наиболее часто встречающиеся биграммы за четыре временных периода. Однако я не могу понять, как правильно сортировать подсчеты на всех...
1800 просмотров
schedule 11.06.2023

Как представить каждое вхождение слова как отдельный вектор tcm в R?
Я ищу эффективный способ создать матрицу совместной встречаемости терминов для (каждого) целевого слова в корпусе, чтобы каждое вхождение слова составляло свой собственный вектор (строку) в tcm , где столбцы - это контекстные слова (т. е. модель...
181 просмотров
schedule 26.07.2023

Подробная информация об увеличении применительно к тематическому моделированию
У меня есть вопрос о функции «дополнения» из учебника Сильге и Робинсона «Интеллектуальный анализ текста с помощью R: аккуратный подход». Запустив LDA в корпусе, я применяю «дополнение», чтобы назначить темы для каждого слова. Я получаю...
105 просмотров
schedule 16.04.2023

Подсчитайте количество слов, общее количество слов и общее количество уникальных слов в R
У меня есть огромный df , в котором есть doc_id и word , и каждый word может содержать несколько class(Class_1,Class_2,Class_3 ) , поэтому, если слово есть в этом class , я помещаю туда 1 , а если нет, то 0 ОБРАЗЕЦ DF doc_id word...
229 просмотров
schedule 19.06.2023

Чтение текстовых файлов в аккуратный текст и добавление метаданных
У меня есть несколько тысяч файлов .txt в каталоге, и я хотел бы прочитать их все в tidytext, где я бы затем добавил столбцы метаданных. Сами имена файлов содержат все метаданные, и мне удалось использовать substr для анализа местоположения, времени,...
241 просмотров
schedule 11.05.2022

Удаление нграмм, содержащих запрещенные слова, с помощью tidytext
ОБНОВЛЕНИЕ: Спасибо за ваш вклад. Я переписал вопрос и добавил лучший пример, чтобы выделить неявные требования, которые не были рассмотрены в моем первом примере. Вопрос Я ищу общее tidy решение для удаления nрограмм, содержащих стоп-слова....
1108 просмотров
schedule 21.03.2023

Восстановить исходный идентификатор документа из объекта lda
Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels . Хотя легко извлечь наиболее вероятную...
104 просмотров
schedule 16.09.2022

Как сделать токенизацию с помощью n-gram для файла PDF в R
Я хочу токенизировать PDF-документ с помощью ngrams в R. Я пытался следовать инструкциям здесь по адресу https://www.tidytextmining.com/ngrams.html , но застрять с функцией unnest_tokens() . library(tm) library(dplyr) library(tidytext)...
172 просмотров
schedule 28.01.2024