Когда набор данных анализируется с помощью алгоритма кластеризации в ELKI 0.5, программа выдает ряд статистических данных: индекс Жаккара, F1-меры и т. д. Чтобы рассчитать эти статистические данные, необходимо сравнить 2 кластеризации. С чем кластеризация, созданная алгоритмом, сравнивается?
ELKI — Статистика кластеризации
Ответы (1)
автоматическая оценка (обратите внимание, что вы можете настроить оценку вручную!) основана на метках в вашем наборе данных. По крайней мере, в текущей версии (почему вы используете 0.5, а не 0.6.0?) он должен автоматически оценивать только если находит метки в наборе данных.
В настоящее время мы не опубликовали внутренние показатели. Существуют некоторые реализации, такие как evaluation/clustering/internal/EvaluateSilhouette.java, некоторые из которых будут в следующем выпуске.
В моих экспериментах внутренние меры оценки сильно вводили в заблуждение. Например, в коэффициенте силуэта обозначенное как «решение» часто даже имеет отрицательный коэффициент силуэта (т. е. хуже, чем полное отсутствие кластеризации).
Кроме того, эти меры не масштабируемы. Коэффициент силуэта находится в O (n ^ 2) для вычисления; что обычно делает эту оценку более дорогой, чем фактическая кластеризация!
Мы ценим вклад!
Вы можете внести свои любимые меры оценки в ELKI, чтобы поделиться ими с другими.
.jar
и запустить его - он не требует установки. Основное преимущество пакета Debian заключается в том, что он тоньше и разделяет, например. Apache Batik с другим приложением, в то время как загружаемый файл .jar включает копию Batik. Я думаю, что единственным правильным способом оценки результата кластеризации является визуализация и фактическое его использование. Любая цифра статистической оценки будет вводить в заблуждение, поскольку она не проверяет применимость к вашей проблеме.
- person Erich Schubert; 09.04.2014