Новичок в R. Я использую tidytext::unnest_tokens
, чтобы разбить длинный текст на отдельные предложения, используя ниже
tidy_drugs <- drugstext.raw %>%
unnest_tokens(sentence, Section, token="sentences")
Итак, я получаю data.frame со всеми предложениями, преобразованными в строки.
Я хотел бы получить начальную и конечную позиции для каждого предложения, не вложенного в длинный текст.
Вот пример длинного текстового файла. Это с этикетки лекарства.
<< *6.1 Clinical Trial Experience
Because clinical trials are conducted under widely varying conditions, adverse reaction rates observed in clinical trials of a drug cannot be directly compared to rates in the clinical trials of another drug and may not reflect the rates observed in practice.
The data below reflect exposure to ARDECRETRIS as monotherapy in 327 patients with classical Hodgkin lymphoma (HL) and systemic anaplastic large cell lymphoma (sALCL), including 160 patients in two uncontrolled single-arm trials (Studies 1 and 2) and 167 patients in one placebo-controlled randomized trial (Study 3).
In Studies 1 and 2, the most common adverse reactions were neutropenia, fatigue, nausea, anemia, cough, and vomiting.*
Желаемый результат - фрейм данных с тремя столбцами