Как выполнить латентный семантический анализ очень большого набора данных

Я пытаюсь запустить LSA или анализ основных компонентов для очень большого набора данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог графически отображать документы в 2-D.

Я пробовал в Python и в MATLAB, но моей системе не хватает памяти и происходит сбой в любом случае из-за объема набора данных. Кто-нибудь знает, как я могу уменьшить нагрузку или сделать какой-то приблизительный LSA/PCA, который может работать быстрее и эффективнее? Моя общая цель - большое уменьшение размерности более 300 тысяч слов.

genekogan 30.08.2012 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы можете ознакомиться с правилом Оджи. Он определяет итеративную процедуру изучения PCA. Теперь вам просто нужно реализовать, что вы не загружаете весь набор данных сразу с диска, чтобы предотвратить перегрузку вашей памяти.

denahiro 30.08.2012

Как выполнить латентный семантический анализ очень большого набора данных

Ответы (1)

Вопросы по теме