Интерпретация результатов с использованием J48 для разделенного интересующего атрибута на уровнях x (WEKA)

Я новичок в интеллектуальном анализе данных и Weka. Я создал классификатор с J48 в Weka, используя графический интерфейс, с J48 (тренировочный набор) для интересующего атрибута на пяти уровнях. Мне нужно оценить точность модели, но я не очень хорошо знаю, как это сделать! Некоторая информация может быть интересна:

== Detailed Accuracy By Class ===
Precision
0.80
?
0.67
0.56
?
?

Во-первых, я хотел бы узнать значение "?" в столбце точности. При проверке интересующего атрибута на двух уровнях я не получил "?". Дерево стало больше, чем при разделении на два уровня. Я задаюсь вопросом, означает ли это, что использование интересующего атрибута на пяти уровнях может привести к менее эффективному дереву с точки зрения классификации и времени вычислений. Это кажется вполне очевидным, так как количество правильно классифицированных экземпляров, когда атрибут имел 2 уровня, достигало 72%.

Заранее спасибо, все интересные ответы будут вознаграждены!


person fina    schedule 07.04.2019    source источник


Ответы (1)


"Я хотел бы знать значение "?" в столбце точности"

Обратите внимание, что для этих же классов показатели TP и FP равны 0. Судя по всему, J48 не отнесла ни одно из ваших наблюдений к этим классам.

Эти классы относительно маленькие? Если это так, вы можете рассмотреть возможность использования фильтра ClassBalancer. Это будет использовать веса, чтобы все классы выглядели одинаково.

Конечно, после того, как вы получите модель, вам нужно «преобразовать» ее обратно в реальную ситуацию. Это похоже на коррекцию физической передискретизации или недостаточной выборки. Смотрите мой ответ здесь: https://stats.stackexchange.com/questions/211174/how-to-exact-prediction-from-over-sampled-dataundoing-oversampling/257507#257507

person zbicyclist    schedule 08.04.2019
comment
Спасибо, велосипедист. Мне было интересно, если вы согласны с этим утверждением, точность меньше, поскольку алгоритм классифицирует менее эффективно, поэтому наличие относительно небольших классов - из-за большого разделения атрибута - влияет на производительность J48. - person fina; 08.04.2019
comment
Довольно много, за исключением того, что я бы не использовал это слово эффективно. Точность меньше из-за большего количества классов. - person zbicyclist; 09.04.2019
comment
Согласованный. Вероятно, лучше говорить об эффективности, когда речь идет о времени вычислений или времени, необходимом для построения модели, которое в данном случае немного больше. Спасибо, - person fina; 09.04.2019