ELKI — Статистика кластеризации

Когда набор данных анализируется с помощью алгоритма кластеризации в ELKI 0.5, программа выдает ряд статистических данных: индекс Жаккара, F1-меры и т. д. Чтобы рассчитать эти статистические данные, необходимо сравнить 2 кластеризации. С чем кластеризация, созданная алгоритмом, сравнивается?

cluster-analysis data-mining elki

Ales 05.04.2014 источник

comment

Он сравнивается с метками в ваших данных. - Has QUIT--Anony-Mousse 06.04.2014

comment

В моих данных нет меток, только значения. Похоже, что полученная кластеризация сравнивается с кластером «все-в-одном», что делает статистику ошибочной. Вы не знаете, почему нет внутренних показателей оценки, например индекса Дэвиса-Булдина или индекса Данна? - Ales 06.04.2014

Ответы (1)

arrow_upward
1
arrow_downward

автоматическая оценка (обратите внимание, что вы можете настроить оценку вручную!) основана на метках в вашем наборе данных. По крайней мере, в текущей версии (почему вы используете 0.5, а не 0.6.0?) он должен автоматически оценивать только если находит метки в наборе данных.

В настоящее время мы не опубликовали внутренние показатели. Существуют некоторые реализации, такие как evaluation/clustering/internal/EvaluateSilhouette.java, некоторые из которых будут в следующем выпуске.

В моих экспериментах внутренние меры оценки сильно вводили в заблуждение. Например, в коэффициенте силуэта обозначенное как «решение» часто даже имеет отрицательный коэффициент силуэта (т. е. хуже, чем полное отсутствие кластеризации).

Кроме того, эти меры не масштабируемы. Коэффициент силуэта находится в O (n ^ 2) для вычисления; что обычно делает эту оценку более дорогой, чем фактическая кластеризация!

Мы ценим вклад!

Вы можете внести свои любимые меры оценки в ELKI, чтобы поделиться ими с другими.

Erich Schubert 07.04.2014

comment

В этом есть смысл. Я использую 0.5, так как 0.6 недоступен через стабильную версию Debian (я заметил, что вы были автором пакета). В качестве метода обучения без учителя кластеризация обычно должна работать с немаркированными данными. Поэтому я считаю, что внутренние меры имеют решающее значение для оценки. Мне нравится, как задокументирован ELKI, и я надеюсь, что смогу найти время и внести свой вклад! - Ales; 09.04.2014

comment

ELKI — это Java-приложение, оно не зависит ни от какой системной библиотеки, кроме OpenJDK-7. Вы можете просто скачать файл .jar и запустить его - он не требует установки. Основное преимущество пакета Debian заключается в том, что он тоньше и разделяет, например. Apache Batik с другим приложением, в то время как загружаемый файл .jar включает копию Batik. Я думаю, что единственным правильным способом оценки результата кластеризации является визуализация и фактическое его использование. Любая цифра статистической оценки будет вводить в заблуждение, поскольку она не проверяет применимость к вашей проблеме. - Erich Schubert; 09.04.2014

ELKI — Статистика кластеризации

Ответы (1)

Мы ценим вклад!

Вопросы по теме