Изменится ли свойство неубывания, если знаменатель является необратимой матрицей на шаге M алгоритма EM?

Предположим, что на М-шаге алгоритма EM знаменатель некоторых параметров является матричным и они необратимы, вместо него мы будем использовать псевдообратную матрицу. Если да, будет ли всегда увеличиваться вероятность логарифма?

Я не мог назвать конкретный случай и сфабриковал этот вопрос. Если вам это действительно нужно, вы можете следовать алгоритму EM на вики-странице. В части фильтрации и сглаживания. предположим, что знаменатель является матрицей, а их сумма необратима, так что же произойдет с логарифмической вероятностью? Все равно всегда увеличивать?


person Lazar    schedule 11.02.2017    source источник


Ответы (1)


В каждом конкретном случае я предлагаю вам проработать доказательство алгоритма EM, например https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm#Proof_of_correctness в этом параметре. В общем, я ожидаю, что пока ваш шаг M увеличивает значение, которое максимизирует проход EM в целом, будет увеличиваться логарифмическая вероятность, даже если шаг M, например, не находит абсолютный максимум в каждом проходят.

Я бы все же беспокоился, если эта необратимая матрица означает, что вы вошли в какую-то особую область набора решений. Поскольку на этапе «Ожидание» рассчитывается ожидаемая логарифмическая вероятность при текущих параметрах, некоторые специальные значения параметров, особенно нулевые, будут означать, что все возможности, рассматриваемые на этапе максимизации, имеют общие параметры — иногда, когда параметр становится равным нулю, Алгоритм EM никогда не может передумать и отодвинуть этот параметр от нуля. Таким образом, может случиться так, что как только вы получите необратимую матрицу, все дальнейшие шаги ЭМ из этой позиции также будут иметь необратимые матрицы, и в этом случае вы можете обнаружить, что алгоритм ЭМ очень быстро застревает в локальных оптимумах, прежде чем он сделал много оптимизации.

person mcdowella    schedule 12.02.2017
comment
Спасибо за ваш ответ. Да, вы правы, разработанная матрица разрежена. Я понимаю, он быстро застревает в локальных оптимумах, но вероятность того, что он быстрый или нет, все равно возрастает, не так ли? Моя точка зрения больше похожа на то, что если я использую псевдоинверсию в уравнении максимизации или жадный алгоритм, например, нахожу каждую строку, которая максимизирует вероятность, а затем объединяет их в матрицу, приведет ли это к оценке ML? Я полагаю, что нет. Так что это не оценка ML, хотя они могут быть близки к ней, и приведет ли это к неувеличению вероятности? - person Lazar; 13.02.2017