У меня есть баллы с бинарными функциями:
id, feature 1, feature 2, ....
1, 0, 1, 0, 1, ...
2, 1, 1, 0, 1, ...
а размер матрицы порядка 20к * 200к, но она скудная. Я использую Mahout для кластеризации данных по алгоритму kmeans и имею следующие вопросы:
- Kmeans - хороший кандидат на двоичные функции?
- Есть ли способ уменьшить размеры, сохранив концепцию манхэттенской меры расстояния (мне нужен Манхэттен вместо Косинуса или Танимото)
- Использование памяти kmeans велико и требует 4 ГБ памяти для каждой задачи сопоставления / уменьшения (блоки 4 МБ в векторном файле размером 400 МБ для кластеров 3k). Учитывая, что объект Vector в Mahout использует двойные записи, есть ли способ использовать только логические записи для точек, но двойные записи для центров?