WEKA: проблема со шкалами атрибутов

У меня есть обучающие наборы данных и несколько тестовых наборов (я классифицирую экземпляры в среде кластеризации, поэтому экземпляры тестового набора вычисляются на лету).

Атрибуты экземпляров имеют разную шкалу (первая варьируется от 0 до 1, а вторая от 0 до 100).

Как мои классификаторы (логистическая регрессия и SMO) справляются с тем фактом, что у них нет сразу всего набора тестов?

Другими словами, как они справляются с различными атрибутами шкалы, если они не знают, какое максимальное значение имеет тестовый набор?

Спасибо


person aneuryzm    schedule 02.05.2011    source источник


Ответы (1)


Согласно Weka Javadocs, SMO "по умолчанию нормализует все атрибуты (Обратите внимание, что коэффициенты в выходных данных основаны на нормализованных/стандартизированных данных, а не на исходных данных.) «То есть вы получите ошибочную нормализацию, если ваш обучающий набор не покрывает полный диапазон для каждого атрибута. Насколько это плохо, зависит от ваших данных.

Я предлагаю вам попробовать тренироваться как с нормализацией, так и без нее (используйте setFeatureSpaceNormalization(false), чтобы отключить ее) и посмотреть, что работает лучше всего.

person Fred Foo    schedule 02.05.2011