Зачем нам нужны гиперпараметры beta и alpha в LDA?

Я пытаюсь понять техническую часть скрытого распределения Дирихле (LDA), но у меня есть несколько вопросов:

Во-первых: почему нам нужно добавлять альфа и гамму каждый раз, когда мы пробуем приведенное ниже уравнение? Что, если мы удалим альфа и гамму из уравнения? Можно ли было бы еще получить результат?

Формула выборки LDA

Во-вторых: в LDA мы случайным образом назначаем тему каждому слову в документе. Затем мы пытаемся оптимизировать тему, наблюдая за данными. Где находится часть, относящаяся к апостериорному выводу в приведенном выше уравнении?


person Mr. Almars    schedule 12.04.2018    source источник


Ответы (1)


Если вы посмотрите на вывод вывод в Wiki, альфа и бета представлены просто потому, что тета и фи взяты из распределения Дирихле, однозначно определяемого ими по отдельности. Причина выбора распределения Дирихле в качестве априорного распределения (например, P (phi | beta)) в основном состоит в том, чтобы сделать математику доступной для решения, используя красивую форму сопряженного априорного распределения (здесь Дирихле и категориальное распределение , категориальное распределение - это частный случай многонационального распределения, где n установлено в единицу, т.е. только одно испытание). Кроме того, распределение Дирихле может помочь нам «внедрить» нашу веру в то, что распределение темы документа и тематического слова сосредоточено на нескольких темах и словах для документа или темы (если мы установим низкие гиперпараметры). Если вы удалите альфа и бета, я не уверен, как это будет работать.

Апостериорный вывод заменяется совместным вероятностным выводом, по крайней мере, в выборке Гиббса, вам нужна совместная вероятность при выборе одного измерения для «преобразования состояния», как это делает парадигма Метрополиса-Гастинга. Формула, которую вы здесь вводите, по сути является производной от совместной вероятности P (w, z). Я хотел бы порекомендовать вам книгу Статистические методы Монте-Карло (автор Роберт), чтобы полностью понять, почему вывод работает.

person Wei Zhong    schedule 10.08.2018
comment
Спасибо за ваш ответ .. Я видел много реализаций LDA, код действительно прост: сначала мы случайным образом назначаем темы каждому документу и слову, затем мы используем выборку Гибса для определения апостериорного. Однако я до сих пор не понимаю, где в коде та часть, которая использует дистрибутив Дирихле. - person Mr. Almars; 24.10.2018
comment
@ Mr.Almars. Основная причина использования Дирихле снова в том, что мы упростили наши вычисления, именно поэтому вы не видите форму Дирихле в окончательной выборке Гибса. Если вы выполните поиск в корне, в котором пропала форма Дирихле, это $ p (W | Z; \ beta) $ и $ p (Z; \ alpha) $, которые умножают множитель и превращают Дирихле в произведения бета-функции, а затем в правиле обновления Гиббса, поскольку $ p (z_i = k \ bar Z \ ni, W; \ Alpha, \ Beta) & \ propto \ dfrac {p (W, Z; \ hyper)} {p (Z \ ni, W \ ni; \ hyper)} $ имеет дробь, многие множители исключены, оставшееся, по сути, является правилом обновления Гиббса. - person Wei Zhong; 25.10.2018
comment
Есть единственная лучшая статья, которую я рекомендую вам читать лучше, чем читать Wiki: Йи Ван, Распределенная выборка Гиббса моделей скрытых тем: грубые детали. Я считаю, что эта статья достаточно хороша, чтобы разрешить вашу путаницу. - person Wei Zhong; 25.10.2018
comment
Спасибо за ваш ответ. Я посмотрю на книгу, которую вы упомянули - person Mr. Almars; 28.10.2018