Вы когда-нибудь задумывались о том, насколько сильное априорное значение по сравнению с наблюдаемыми данными? Это не совсем простая вещь для осмысления. Чтобы облегчить эту проблему, я проведу вас через несколько симуляционных упражнений. Они предназначены для размышлений, а не обязательно как рекомендация. Однако многие из соображений, которые мы рассмотрим, будут непосредственно применимы к вашей повседневной жизни, связанной с применением байесовских методов в вашей конкретной области. Мы начнем с создания данных, созданных на основе известного процесса. Процесс следующий.

Он представляет собой циклический процесс с одним событием, представленным переменной d. Существует только одно наблюдение этого события, поэтому это означает, что с максимальной вероятностью этой переменной всегда будет присвоено все, что не может быть объяснено другими данными. Это не всегда нужно, но это просто жизнь. Данные и максимальное правдоподобие выглядят так, как показано ниже.

Первое, что вы можете заметить, это то, что максимальная вероятность превышает параметр d перед ним на 20,2%, поскольку истинное значение равно 5.

Теперь представьте, что мы делаем это байесовским способом и подгоняем параметры процесса генерации, но не функциональную форму. Таким образом, мы отбираем бета-параметры без каких-либо предварительных оценок и посмотрим, что получится. На графике ниже вы увидите истину, которая является y, и 3 строки, соответствующие 3 независимым выборкам из подобранного результирующего апостериорного распределения.

Очень похоже на пример максимального правдоподобия, за исключением того, что теперь мы также знаем интервалы достоверности и все другие полезные свойства, которые дает нам байесовский подход. Мы можем быстро резюмировать это для бета-параметров. Итак, мы видим, что мы все еще переоснащаемся, несмотря на то, что у нас есть байесовский подход.

Теперь к теме! Насколько сильны априорные значения по сравнению с данными?

О слабых приорах и невежестве

Чтобы проанализировать силу априорных факторов, мы будем последовательно устанавливать все более строгие априорные факторы и смотреть, что произойдет с результатом. Помните, что счастливая ситуация в том, что мы знаем правду. Мы начнем с построения модели, как показано ниже, что означает, что мы будем назначать априорные значения только бета-версиям, а не перехвату.

Таким образом, эта модель соответствует тому же процессу, что и раньше, но с введенными слабыми априорными значениями. Априорные значения здесь заявляют, что все бета-параметры представляют собой гауссовские распределения с большим разбросом вокруг них, что означает, что мы не очень уверены в том, какими должны быть эти значения. Если вы посмотрите на приведенную выше таблицу, где у нас не было априорных значений, что в основном означает, что наши априорные значения были однородными распределениями между минус бесконечностью и бесконечностью, вы можете увидеть, что вывод совсем не сильно отличается.

Следует отметить, что достоверный интервал не сократился, а это означает, что неопределенность моделей по каждому параметру примерно одинакова. Почему это так? Ну, для начала, в первой модели, даже если мы «полагали», что бесконечность является разумным предположением для каждого параметра, сэмплер нашел способ. Среднее значение апостериорных распределений для каждого параметра в моделях практически идентично. Ну и замечательно. Два бесконечно разных априорных значения приводят к одному и тому же среднему выводу. Давайте попробуем посмотреть, в каком масштабе априорные значения изменят средний вывод. См. Описание новой модели здесь.

Как это выглядит для нашего вывода? Выглядит вот так!

По-прежнему не так много разницы, поэтому давайте снова сделаем 10-кратную редукцию.

Здесь мы видим разницу. Посмотрите на среднее значение параметра β [d] в таблице ниже. Он изменился с 6,03 до 4,73, то есть на 21%. Теперь это среднее значение всего на 5,4% отличается от истины.

Но давайте подумаем над этим. Почему это случилось? Причина в том, что ваши знания могут быть значительными. Иногда гораздо более существенный, чем данные. Таким образом, ваш опыт в этой области СЛЕДУЕТ принимать во внимание и сравнивать с доказательствами. Теперь вам нужно математически изложить свой опыт, что мы и сделали в последней модели. Прежде чем вы начнете спорить с моими рассуждениями, взгляните на графики, на которых мы строим последнюю апостериорную по сравнению с апостериорной и точечную оценку из нашего процесса генерации.

Как видите, априор близок к истинному значению, но не покрывает его. Это не обязательно плохо, поскольку незнание позволяет данным вести вас в безумном направлении. Пример этого показан на графике ниже, где мы наносим апостериор из модели три против апостериорного значения модели три. Очевидно, что данным было позволено довести значение до слишком высокого значения, что означает, что мы переоснащаемся. Именно поэтому максимальная вероятность страдает от проклятия размерности. Не стоит этому удивляться, поскольку мы буквально сказали модели, что значение до 10 вполне вероятно.

Мы можем сформулировать вывод из этого.

Чем слабее ваши априорные значения, тем больше вы моделируете решение с максимальной вероятностью.

О сильных приорах и чрезмерной уверенности

Если предыдущая глава была посвящена изложению своего мнения и уверенности в своих знаниях о предметной области, также есть опасность переоценить это и проявить чрезмерную уверенность. Чтобы проиллюстрировать это, давайте рассмотрим небольшой пример, в котором мы говорим, что бета колеблется около 0 со стандартным отклонением 0,5, что составляет половину ширины предыдущего. Взгляните на оценки параметров сейчас.

Совершенно очевидно, что здесь мы были чересчур уверены, и теперь результаты немного отличаются от истины. Тем не менее, я бы сказал, что это все же довольно вменяемый априор. Почему? Потому что мы не имели отношения к рассматриваемой проблеме, и в этой ситуации лучше быть немного консервативным. Таким образом, мы добились успеха. Мы высказали свое мнение, и «одна» точка данных значительно обновила его. А теперь представьте, если бы у нас было двое? Как таковой, может быть, не так уж плохо, что одна точка данных смогла немного обновить наше мнение, и, может быть, было не такой уж плохой идеей быть консервативным с самого начала?

Естественно, рекомендуется ли быть консервативным, конечно, зависит от конкретного приложения. Для приложения, определяющего, действительно ли подозреваемый виновен в преступлении перед лицом доказательств, возможно, вполне естественно скептически относиться к «доказательствам», в то время как для потенциальных инвестиций оно может окупиться, если будет более рискованным и согласиться с более высоким уровнем ошибок. в надежде на крупную победу.

Заключение

Итак, что мы узнали из всего этого? Надеюсь, вы узнали, что установка приора - это не то, чему вы научитесь за ночь. Чтобы это почувствовать, нужна практика. Однако принципы чрезвычайно очевидны. Я оставлю вам несколько основных советов о том, как установить приоры.

  • Всегда устанавливайте априори в непосредственной близости от того, что, по вашему мнению, является правдой.
  • Всегда устанавливайте априорные значения так, чтобы они отражали тот же порядок величины, что и явление, которое вы пытаетесь предсказать.
  • Не будьте самоуверенны, оставьте место для сомнений
  • Никогда не используйте совершенно неинформативные априоры
  • По возможности воздерживайтесь от использования равномерных распределений.
  • Всегда суммируйте последствия всех ваших предварительных оценок, чтобы, если данные не были доступны, ваша модель все равно предсказывала бы в том же порядке, что и наблюдаемый вами ответ.
  • Будьте осторожны и честны! Никогда не постулируйте очень информативную априорность результатов, которые ХОТИТЕ быть правдой. Ничего страшного, если вы ВЕРИТЕ в их истинность. Не успокаивайтесь, пока не увидите разницу.

Удачного взлома!

Первоначально опубликовано на doktormike.github.io.