Как назло, я недавно тоже боролся с этим материалом. Вот как я подумал об этом:
Рассмотрим связанный, но отличный алгоритм, называемый алгоритмом классификации-максимизации, который мы могли бы использовать в качестве метода решения проблемы смешанной модели. Проблема смешанной модели - это проблема, в которой у нас есть последовательность данных, которая может быть получена любым из N различных процессов, общая форма которых нам известна (например, гауссовский), но мы не знаем параметров процессов (например, средства и / или отклонения) и могут даже не знать относительную вероятность процессов. (Обычно мы, по крайней мере, знаем количество процессов. Без этого мы попадаем на так называемую «непараметрическую» территорию.) В некотором смысле процесс, который генерирует все данные, является «отсутствующими» или «скрытыми» данными. проблемы.
Теперь этот связанный алгоритм классификации-максимизации начинает с некоторых произвольных предположений о параметрах процесса. Каждая точка данных оценивается в соответствии с каждым из этих процессов параметров, и генерируется набор вероятностей - вероятность того, что точка данных была сгенерирована первым процессом, вторым процессом и т. Д., Вплоть до последнего N-го процесса. Затем каждая точка данных классифицируется в соответствии с наиболее вероятным процессом.
На данный момент наши данные разделены на N разных классов. Итак, для каждого класса данных мы можем с помощью некоторых относительно простых вычислений оптимизировать параметры этого кластера с помощью метода максимального правдоподобия. (Если мы попытаемся сделать это для всего набора данных перед классификацией, это обычно аналитически невозможно.)
Затем мы обновляем наши предположения о параметрах, переклассифицируем, обновляем наши параметры, переклассифицируем и т. Д. До сходимости.
Алгоритм максимизации ожидания аналогичен, но имеет более общий характер: вместо жесткой классификации точек данных на класс 1, класс 2, ... через класс N мы теперь используем мягкую классификацию, в которой каждая точка данных принадлежит каждый процесс с некоторой вероятностью. (Очевидно, что вероятности для каждой точки должны быть суммированы до единицы, поэтому происходит некоторая нормализация.) Я думаю, мы могли бы также думать об этом как о каждом процессе / предположении, имеющем определенную «объяснительную силу» для каждого из данных. точки.
Итак, теперь, вместо оптимизации предположений относительно точек, которые абсолютно принадлежат каждому классу (игнорируя точки, которые абсолютно не принадлежат), мы повторно оптимизируем предположения в контексте этих мягких классификаций или этих объяснительных возможностей. И так случилось, что если вы напишете выражения правильно, то, что вы максимизируете, - это функция, которая по своей форме является ожиданием.
С учетом сказанного, есть некоторые предостережения:
1) Звучит просто. Это не так, по крайней мере, для меня. Литература изобилует мешаниной специальных приемов и приемов - использование выражений правдоподобия вместо выражений вероятности, преобразование в логарифмические вероятности, использование индикаторных переменных, преобразование их в базисную векторную форму и включение их в экспоненты и т. Д.
Они, вероятно, будут более полезными, если у вас будет общая идея, но они также могут запутать основные идеи.
2) Какие бы ограничения у вас ни были, может быть сложно включить в структуру. В частности, если вы знаете вероятности каждого из процессов, вы, вероятно, в хорошей форме. Если нет, вы также оцениваете их, и сумма вероятностей процессов должна быть равна единице; они должны жить на вероятностном симплексе. Не всегда очевидно, как сохранить эти ограничения нетронутыми.
3) Это достаточно общий метод, поэтому я не знаю, как бы я стал писать общий код. Приложения выходят далеко за рамки простой кластеризации и распространяются на многие ситуации, когда вам действительно не хватает данных, или когда предположение об отсутствии данных может вам помочь. Для многих приложений здесь проявляется дьявольская изобретательность.
4) Доказано, что этот метод сходимости, но сходимость не обязательно к глобальному максимуму; будьте осторожны.
Я счел следующую ссылку полезной при разработке приведенной выше интерпретации: Статистические обучающие слайды
И следующая статья подробно описывает некоторые болезненные математические детали: Описание Майкла Коллинза а>
person
Novak
schedule
02.04.2013