Я пытаюсь создать дерево решений с алгоритмом C4.5 для школьного проекта. Дерево решений предназначено для набора данных о выживании Хабермана, информация об атрибутах составляет.
Attribute Information:
1. Age of patient at time of operation (numerical)
2. Patient's year of operation (year - 1900, numerical)
3. Number of positive axillary nodes detected (numerical)
4. Survival status (class attribute)
1 = the patient survived 5 years or longer
2 = the patient died within 5 year
И нам нужно реализовать дерево решений, в котором каждый лист должен иметь один отличный результат (это означает, что энтропия этого листа должна быть равна 0), однако есть шесть случаев, когда есть одни и те же атрибуты, но разные результаты.
Например:
66,58,0,2
66,58,0,1
Что делает алгоритм C4.5 в таких ситуациях, я искал везде, но не смог найти никакой информации.
Спасибо.