Выбор начальных медоидов в алгоритме PAM

Я прочитал несколько разных статей о том, как PAM выбирает начальные медоиды, но я получаю противоречивые мнения.

Некоторые предполагают, что k первых медоидов выбираются случайным образом, в то время как другие предполагают, что алгоритм изначально выбирает k репрезентативных медоидов в наборе данных (хотя и не уточняя, как происходит эта «репрезентативность»). Ниже я перечислил эти ресурсы:

Расчет медоида

Недостатки алгоритма K-Medoid (PAM)

https://paginas.fe.up.pt/~ec/files_1112/week_06_Clustering_part_II.pdf

https://www.datanovia.com/en/lessons/k-medoids-in-r-algorithm-and-practical-examples/

1) Мой вопрос был бы в том, мог бы кто-нибудь объяснить более подробно, как алгоритм выбирает начальные k медоидов, поскольку, насколько я понимаю, разный начальный выбор может привести к разным результатам.

2) Также является ли это одной из причин использования CLARA (помимо минимизации времени вычислений и проблем с объемом оперативной памяти) - найти медоиды через ресемплинг, которые являются "оптимальными" вариантами?

Я использую R в скобках с функцией pam(). Открыт для других функций в других библиотеках, если есть лучшая альтернатива, о которой я не знаю.


person ALEX.VAMVAS    schedule 19.02.2019    source источник
comment
Вы когда-нибудь находили ответ на этот вопрос? Документы википедии защищены платным доступом.   -  person rocksNwaves    schedule 18.05.2021


Ответы (1)


Прочтите оригинальные источники.

Много глупостей написано позже, к сожалению.

PAM состоит из двух алгоритмов:

  1. BUILD для выбора начальных медоидов (не случайным образом)
  2. ОБМЕН, чтобы сделать лучшие улучшения (не стиль k-средних)

Алгоритм k-средних работает намного хуже, чем PAM. Любое описание PAM, в котором не упоминаются эти две части, является неточным (и таких довольно много...)

Пакет R, похоже, использует настоящий алгоритм PAM:

По умолчанию, если медоиды не указаны, алгоритм сначала ищет хороший начальный набор медоидов (это называется этапом сборки ). Затем он находит локальный минимум для целевой функции, то есть решение, при котором не существует ни одного переключения наблюдения с медоидом, которое уменьшит цель (это называется фазой перестановки).

CLARA явно найдет худшие решения, чем PAM, так как она запускает PAM на образце, а если бы оптимальных медоидов не было в образце, то их невозможно было бы найти.

person Has QUIT--Anony-Mousse    schedule 19.02.2019
comment
Спасибо за быстрый ответ, не могли бы вы дать мне пару ссылок на первоисточники? - person ALEX.VAMVAS; 20.02.2019
comment
Они должны быть связаны в Википедии. - person Has QUIT--Anony-Mousse; 21.02.2019