ELKI — Статистика кластеризации

Когда набор данных анализируется с помощью алгоритма кластеризации в ELKI 0.5, программа выдает ряд статистических данных: индекс Жаккара, F1-меры и т. д. Чтобы рассчитать эти статистические данные, необходимо сравнить 2 кластеризации. С чем кластеризация, созданная алгоритмом, сравнивается?


person Ales    schedule 05.04.2014    source источник
comment
Он сравнивается с метками в ваших данных.   -  person Has QUIT--Anony-Mousse    schedule 06.04.2014
comment
В моих данных нет меток, только значения. Похоже, что полученная кластеризация сравнивается с кластером «все-в-одном», что делает статистику ошибочной. Вы не знаете, почему нет внутренних показателей оценки, например индекса Дэвиса-Булдина или индекса Данна?   -  person Ales    schedule 06.04.2014


Ответы (1)


автоматическая оценка (обратите внимание, что вы можете настроить оценку вручную!) основана на метках в вашем наборе данных. По крайней мере, в текущей версии (почему вы используете 0.5, а не 0.6.0?) он должен автоматически оценивать только если находит метки в наборе данных.

В настоящее время мы не опубликовали внутренние показатели. Существуют некоторые реализации, такие как evaluation/clustering/internal/EvaluateSilhouette.java, некоторые из которых будут в следующем выпуске.

В моих экспериментах внутренние меры оценки сильно вводили в заблуждение. Например, в коэффициенте силуэта обозначенное как «решение» часто даже имеет отрицательный коэффициент силуэта (т. е. хуже, чем полное отсутствие кластеризации).

Кроме того, эти меры не масштабируемы. Коэффициент силуэта находится в O (n ^ 2) для вычисления; что обычно делает эту оценку более дорогой, чем фактическая кластеризация!

Мы ценим вклад!

Вы можете внести свои любимые меры оценки в ELKI, чтобы поделиться ими с другими.

person Erich Schubert    schedule 07.04.2014
comment
В этом есть смысл. Я использую 0.5, так как 0.6 недоступен через стабильную версию Debian (я заметил, что вы были автором пакета). В качестве метода обучения без учителя кластеризация обычно должна работать с немаркированными данными. Поэтому я считаю, что внутренние меры имеют решающее значение для оценки. Мне нравится, как задокументирован ELKI, и я надеюсь, что смогу найти время и внести свой вклад! - person Ales; 09.04.2014
comment
ELKI — это Java-приложение, оно не зависит ни от какой системной библиотеки, кроме OpenJDK-7. Вы можете просто скачать файл .jar и запустить его - он не требует установки. Основное преимущество пакета Debian заключается в том, что он тоньше и разделяет, например. Apache Batik с другим приложением, в то время как загружаемый файл .jar включает копию Batik. Я думаю, что единственным правильным способом оценки результата кластеризации является визуализация и фактическое его использование. Любая цифра статистической оценки будет вводить в заблуждение, поскольку она не проверяет применимость к вашей проблеме. - person Erich Schubert; 09.04.2014