Я использую функцию проводника Weka для классификации.
Итак, у меня есть файл .arff с двумя функциями с числовым значением, а мой класс — двоичный 0 или 1 (например, {0,1}).
Образец:
@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}
@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....
Я загружаю этот файл .arff, использую 10-кратную перекрестную проверку (без тестового файла) и выбираю NaiveBayes, затем классифицирую данные и получаю: 5 неправильно помечены, 100 правильно помечены. Все идет нормально.
Теперь я значительно меняю свой файл .arff (задаю совершенно случайные значения для атрибутов своих функций). И повторите вышесказанное, и я получу ТОЧНО ту же статистику при классификации.
Я попробовал это с дополнительными изменениями в моем файле .arff, другими алгоритмами классификации. Тем не менее, ТОЧНО одна и та же статистика (в рамках одного и того же алгоритма) независимо от того, какие значения я даю своему файлу .arff.
Я делаю что-то не так здесь?