Я пытаюсь запустить LSA или анализ основных компонентов для очень большого набора данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог графически отображать документы в 2-D.
Я пробовал в Python и в MATLAB, но моей системе не хватает памяти и происходит сбой в любом случае из-за объема набора данных. Кто-нибудь знает, как я могу уменьшить нагрузку или сделать какой-то приблизительный LSA/PCA, который может работать быстрее и эффективнее? Моя общая цель - большое уменьшение размерности более 300 тысяч слов.