Выбор начальных медоидов в алгоритме PAM

Я прочитал несколько разных статей о том, как PAM выбирает начальные медоиды, но я получаю противоречивые мнения.

Некоторые предполагают, что k первых медоидов выбираются случайным образом, в то время как другие предполагают, что алгоритм изначально выбирает k репрезентативных медоидов в наборе данных (хотя и не уточняя, как происходит эта «репрезентативность»). Ниже я перечислил эти ресурсы:

Расчет медоида

Недостатки алгоритма K-Medoid (PAM)

https://paginas.fe.up.pt/~ec/files_1112/week_06_Clustering_part_II.pdf

https://www.datanovia.com/en/lessons/k-medoids-in-r-algorithm-and-practical-examples/

1) Мой вопрос был бы в том, мог бы кто-нибудь объяснить более подробно, как алгоритм выбирает начальные k медоидов, поскольку, насколько я понимаю, разный начальный выбор может привести к разным результатам.

2) Также является ли это одной из причин использования CLARA (помимо минимизации времени вычислений и проблем с объемом оперативной памяти) - найти медоиды через ресемплинг, которые являются "оптимальными" вариантами?

Я использую R в скобках с функцией pam(). Открыт для других функций в других библиотеках, если есть лучшая альтернатива, о которой я не знаю.

r cluster-analysis data-partitioning

ALEX.VAMVAS 19.02.2019 источник

comment

Вы когда-нибудь находили ответ на этот вопрос? Документы википедии защищены платным доступом. - rocksNwaves 18.05.2021

Ответы (1)

arrow_upward
2
arrow_downward

Прочтите оригинальные источники.

Много глупостей написано позже, к сожалению.

PAM состоит из двух алгоритмов:

BUILD для выбора начальных медоидов (не случайным образом)
ОБМЕН, чтобы сделать лучшие улучшения (не стиль k-средних)

Алгоритм k-средних работает намного хуже, чем PAM. Любое описание PAM, в котором не упоминаются эти две части, является неточным (и таких довольно много...)

Пакет R, похоже, использует настоящий алгоритм PAM:

По умолчанию, если медоиды не указаны, алгоритм сначала ищет хороший начальный набор медоидов (это называется этапом сборки ). Затем он находит локальный минимум для целевой функции, то есть решение, при котором не существует ни одного переключения наблюдения с медоидом, которое уменьшит цель (это называется фазой перестановки).

CLARA явно найдет худшие решения, чем PAM, так как она запускает PAM на образце, а если бы оптимальных медоидов не было в образце, то их невозможно было бы найти.

Has QUIT--Anony-Mousse 19.02.2019

comment

Спасибо за быстрый ответ, не могли бы вы дать мне пару ссылок на первоисточники? - ALEX.VAMVAS; 20.02.2019

comment

Они должны быть связаны в Википедии. - Has QUIT--Anony-Mousse; 21.02.2019

Выбор начальных медоидов в алгоритме PAM

Ответы (1)

Вопросы по теме