Как выполнить латентный семантический анализ очень большого набора данных

Я пытаюсь запустить LSA или анализ основных компонентов для очень большого набора данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог графически отображать документы в 2-D.

Я пробовал в Python и в MATLAB, но моей системе не хватает памяти и происходит сбой в любом случае из-за объема набора данных. Кто-нибудь знает, как я могу уменьшить нагрузку или сделать какой-то приблизительный LSA/PCA, который может работать быстрее и эффективнее? Моя общая цель - большое уменьшение размерности более 300 тысяч слов.


person genekogan    schedule 30.08.2012    source источник


Ответы (1)


Вы можете ознакомиться с правилом Оджи. Он определяет итеративную процедуру изучения PCA. Теперь вам просто нужно реализовать, что вы не загружаете весь набор данных сразу с диска, чтобы предотвратить перегрузку вашей памяти.

person denahiro    schedule 30.08.2012