ELKI DBSCAN для миллионов файлов

Я использую dbscan для кластеризации точек, так как у меня больше 1 миллиона точек, я также использую r*-tree.

Я использую ELKI в командной строке:

java -cp elki.jar
de.lmu.ifi.dbs.elki.application.KDDCLIApplication
-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-algorithm clustering.DBSCAN
-dbc.in points1.txt
-dbscan.epsilon 20
-dbscan.minpts 10
-out results3/DBSCANeps20min10

для небольших файлов все в порядке, но для 4 миллионов файлов произошла ошибка:

at de.lmu.ifi.dbs.elki.database.ids.integer.DoubleIntegerArrayQuickSort.quickSort(Unknown Source)

person Fattaneh Talebi    schedule 17.06.2015    source источник
comment
Есть вероятность, что вы используете старую версию ELKI? Кроме того, используйте массовую загрузку для R*-дерева. Это гораздо быстрее.   -  person Erich Schubert    schedule 18.06.2015
comment
спасибо @ErichSchubert, я использовал версию 0.6.0 (2014, 10 января), проблема в этом?   -  person Fattaneh Talebi    schedule 18.06.2015
comment
Тогда это старая проблема. Пожалуйста, используйте исправленные, более новые версии!   -  person Erich Schubert    schedule 18.06.2015
comment
@ErichSchubert: спасибо, это работает.   -  person Fattaneh Talebi    schedule 18.06.2015


Ответы (1)


Это известная ошибка в старой версии ELKI, когда имеется много повторяющихся расстояний.

Это может быть решено путем обновления до текущей версии.

person Erich Schubert    schedule 19.06.2015