Причинный вывод
Формула корректировки
Это десятый пост из серии, в которой мы прорабатываем Причинный вывод в статистике - хороший учебник, соавтором которого является сам Judea Pearl.
Вы можете найти предыдущий пост здесь и весь соответствующий код Python в сопутствующем репозитории GitHub:
Хотя я сделаю все возможное, чтобы представить содержание ясным и доступным образом, я настоятельно рекомендую вам получить книгу самостоятельно и следить за ней. Итак, без лишних слов, приступим!
3.2 - Формула корректировки
В предыдущем разделе была представлена концепция вмешательства как операции графа, где мы моделируем вмешательство в переменную, вырезая все ее входящие ребра. Здесь мы исследуем последствия этой концепции, используя ее для количественной оценки причинного эффекта вмешательства.
Идеализированный способ количественной оценки эффекта лекарства - просто рассмотреть два сценария:
- A - Дайте лекарство (do (X = 1)) всему населению и посмотрите, сколько выздоравливает.
- B - Не давайте лекарство никому (делать (X = 0)) и наблюдайте, сколько выздоравливает.
В этих условиях общий эффект препарата будет просто pA-pB. Естественно, этот сценарий невозможно реализовать на практике, поскольку мы не можем просто вернуться во времени и наблюдать, что произошло бы, если бы мы не вводили лекарство (мы рассмотрим контрфакты позже).
Общий подход, используемый в A / B-тестировании, заключается в случайном назначении лечения или отсутствия лечения для каждого человека с последующим анализом результатов. В медицинской литературе они также известны как рандомизированное контролируемое исследование.
Здесь наша цель - выполнить тот же расчет, используя, насколько это возможно, только данные наблюдений. В наших обозначениях мы пишем pA-pB как:
Это известно как «Разница в причинно-следственных связях» или «Средний причинный эффект» (ACE). Из нашего предыдущего обсуждения ясно, что оба распределения вычисляются на модифицированном графе. Рассматривая DAG с рис. 3.3, мы имеем:
где мы применили наше понимание причинных графов, чтобы связать распределения вероятностей на модифицированном графе с исходными, которые мы можем вычислить непосредственно из данных наблюдений. Окончательное соотношение:
должно быть очевидно из того факта, что отношения между Y и его входами (X и Z) не изменились, несмотря на то, что мы вручную устанавливаем значение X.
Возвращаясь к выражению ACE, мы можем написать:
который мы можем переписать, благодаря приведенным выше уравнениям инвариантности, как:
которая известна как формула корректировки. Поскольку все величины в правой части этого выражения не изменены, мы можем вычислить их непосредственно из исходных данных.
В качестве практического примера применим формулу корректировки к примеру Парадокса Симпсона из раздела 1.2. Там у нас было:
Если X = 1 (0) - это лекарство (нет лекарства), а Z = 1 - мужской (женский), мы имеем:
Подставив цифры, мы получим:
Итак, финальный АПФ от приема лекарства будет:
Или улучшение результатов на 5%.
Руководствуясь этим примером, мы можем записать общее правило причинно-следственных связей:
Правило 1 (правило причинно-следственных связей): учитывая график G, в котором набор переменных PA обозначен как родительский элемент X, причинный эффект X на Y задается:
где сумма берется по всем возможным значениям переменных PA
Здесь мы отмечаем, что родители X соответствуют исходному Графику G, так как в хирургически модифицированном графе X по определению не имеет родителей.
Сумма значений Родителей X может показаться нелогичной, но ее легко понять. Фиксируя значение X, мы разрываем связь между X и PA, поэтому переменные в PA не могут напрямую влиять на X, но они все еще могут быть связаны с другими переменными в DAG и по-прежнему могут влиять на них. Усредняя по всем возможным значениям PA, мы естественным образом учитываем все эти эффекты.
Давайте применим эту формулу к случаю, когда отношение между X и Z выше:
В этом случае у X нет родителей, поэтому вмешательство в X ничего не меняет. Получаем просто:
В данном случае это выглядит так, как если бы лечение было назначено «как если бы оно было рандомизировано», поскольку не было фактора, определяющего, кто его получал.
Рассмотрим в качестве практического примера SCM из Раздела 1.5:
В этом случае, если мы хотим вычислить P (Y | do (X)), мы имеем:
Откуда сразу можно написать:
Чтобы обобщить вмешательства на несколько переменных, мы просто последовательно применяем различные вмешательства. Например, если нас интересует график с Рис. 2.9:
И желая вмешаться как в X, так и в Z3, мы начнем с написания полного совместного распределения:
Чтобы установить условия для X и Z3, мы просто удаляем все термины, вычисляющие значения X или Z3. :
Поскольку это соответствует измененному графику:
Этот простой пример можно обобщить до «усеченной формулы продукта» или «g-формулы»:
где сумма берется по всем невмешательским переменным.
Я надеюсь, что вам и дальше будет нравиться наше исследование причинно-следственного вывода, и вы найдете эти сообщения полезными и интересными.
Напоминаем, что вы можете найти код для всех приведенных выше примеров в нашем репозитории GitHub:
Уже доступен следующий пост из этой серии:
А если вы хотите получить уведомление, когда выйдет следующий пост, вы можете подписаться на информационный бюллетень The Sunday Briefing: