Как алгоритм C4.5 обрабатывает данные с одинаковыми атрибутами, но разными результатами?

Я пытаюсь создать дерево решений с алгоритмом C4.5 для школьного проекта. Дерево решений предназначено для набора данных о выживании Хабермана, информация об атрибутах составляет.

Attribute Information:

1. Age of patient at time of operation (numerical)
2. Patient's year of operation (year - 1900, numerical)
3. Number of positive axillary nodes detected (numerical)
4. Survival status (class attribute)
    1 = the patient survived 5 years or longer
    2 = the patient died within 5 year

И нам нужно реализовать дерево решений, в котором каждый лист должен иметь один отличный результат (это означает, что энтропия этого листа должна быть равна 0), однако есть шесть случаев, когда есть одни и те же атрибуты, но разные результаты.

Например:

66,58,0,2
66,58,0,1

Что делает алгоритм C4.5 в таких ситуациях, я искал везде, но не смог найти никакой информации.

Спасибо.


person razorx    schedule 24.03.2017    source источник
comment
Язлаб баша бела дими :)   -  person Emre Kantar    schedule 25.03.2017
comment
@EmreKantar, ха-ха, Айнен. :)   -  person razorx    schedule 25.03.2017


Ответы (1)


Прочтите Quinlan, JR C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. (Полезно изучать C4.5, если у вас есть задание в колледже)

Из того, что я изучал. кажется, на странице 137, листинг исходного кода build.c
Есть строка
//* if all case are the same.... or there are not enough case to divide (как и ваш вопрос)
она будет return Node
Этот узел взят из
Node = Leaf(ClassFreq, BestClass, Cases, Cases-NoBestClass);

ClassFreq хранит количество каждого класса
BestClass хранит доминирующий класс (наиболее часто встречающийся) Cases хранит количество имеющихся данных
NoBestClass хранит количество данных BestClass

Эта конечная функция берется из файла Trees.c эта конечная функция вернет узел с листом bestClass (Best class become the leaf).

Вся эта информация относится к Quinlan, J. R. C4.5: Programs for Machine Learning. Издательство Морган Кауфманн, 1993 г.

Кто разбирается в этом, отпишитесь, пожалуйста, если я что-то не так сделал. спасибо

person Calvin    schedule 23.01.2020