У меня вопрос об использовании команды cluster kmeans
в Stata. Я использую версию 13 программного обеспечения.
Я понимаю, что для получения согласованных группировок при использовании команды cluster
необходимо установить начальное значение перед командой. Мой вопрос: почему, когда я устанавливаю разные семена и запускаю одну и ту же команду cluster
, полученные группы полностью отличаются друг от друга по составу? Я понял это, запустив кросс-таблицу одного на другом, например. tab _clus_1 _clus_2
, где каждая кластеризация была сгенерирована после другого начального набора, и вы видите, что многие случаи сгруппированы по-разному.
Поскольку я мало знаю об алгоритме, который использует команда cluster
, это вызывает у меня беспокойство по поводу надежности создаваемой группирующей переменной. Я использую набор данных из 616 наблюдений и передаю команде кластера 41 переменную, многие из которых либо являются фиктивными (0/1), либо находятся в диапазоне от 0 до 1, поэтому я задался вопросом, может ли это отсутствие вариаций способствовать тому, что очень разные группы генерируются каждый раз, когда я устанавливаю семя на другое число.