Я сталкивался с проблемами переполнения памяти при создании векторов TFIDF для использования в классификации документов с использованием реализации классификации MLlib Naive Baye.
Проблемы с переполнением памяти и сборкой мусора возникают при сборе idf для всех терминов. Чтобы дать представление о масштабе, я читаю около 615 000 (около 4 ГБ текстовых данных) документов небольшого размера из HBase и запускаю программу spark с 8 ядрами и 6 ГБ памяти исполнителя. Я попытался увеличить уровень параллелизма и перетасовать долю памяти, но безрезультатно.
Как я могу решить эту проблему OOM?
Спасибо