Предположим, у меня есть набор 100
документов, 70
по политике и 30
по математике (странная комбинация, я это знаю). Моя цель — представить их на xy с помощью таких методов, как анализ многомерного масштабирования, сетевой анализ, сом и т. д. Когда я рассматриваю весь набор документов, я делаю так:
- Я создаю корпус (docs) из 100 элементов;
- из корпуса я создаю матрицу терминов документа (dtm);
- из dtm я создаю матрицу расстояний (dist) относительно терминов, составляющих документы, или относительно самих документов (в соответствии с тем, что я хочу представить).
Очевидно, что я могу сделать отдельные графики для двух, но я хотел бы сделать что-то другое. У меня есть три корпуса (docs_tot, docs_P, docs_M) и три матрицы терминов документа (dtm_tot, dtm_P, dtm_M).
Решения:
1) представление суммы документов по xy, раскрашивая политические и математические документы по-разному. Таким образом я могу видеть, представляют ли они естественные кластеры на xy.
2) проведение сетевого анализа различий. Существует ли концептуальный способ вычитания, например, dtm_P и dtm_tot, зная, что dtm_P имеет только подмножество (70) из документы dtm_tot (100)?