Причинный вывод

Формула корректировки

Это десятый пост из серии, в которой мы прорабатываем Причинный вывод в статистике - хороший учебник, соавтором которого является сам Judea Pearl.

Вы можете найти предыдущий пост здесь и весь соответствующий код Python в сопутствующем репозитории GitHub:



Хотя я сделаю все возможное, чтобы представить содержание ясным и доступным образом, я настоятельно рекомендую вам получить книгу самостоятельно и следить за ней. Итак, без лишних слов, приступим!

3.2 - Формула корректировки

В предыдущем разделе была представлена ​​концепция вмешательства как операции графа, где мы моделируем вмешательство в переменную, вырезая все ее входящие ребра. Здесь мы исследуем последствия этой концепции, используя ее для количественной оценки причинного эффекта вмешательства.

Идеализированный способ количественной оценки эффекта лекарства - просто рассмотреть два сценария:

  • A - Дайте лекарство (do (X = 1)) всему населению и посмотрите, сколько выздоравливает.
  • B - Не давайте лекарство никому (делать (X = 0)) и наблюдайте, сколько выздоравливает.

В этих условиях общий эффект препарата будет просто pA-pB. Естественно, этот сценарий невозможно реализовать на практике, поскольку мы не можем просто вернуться во времени и наблюдать, что произошло бы, если бы мы не вводили лекарство (мы рассмотрим контрфакты позже).

Общий подход, используемый в A / B-тестировании, заключается в случайном назначении лечения или отсутствия лечения для каждого человека с последующим анализом результатов. В медицинской литературе они также известны как рандомизированное контролируемое исследование.

Здесь наша цель - выполнить тот же расчет, используя, насколько это возможно, только данные наблюдений. В наших обозначениях мы пишем pA-pB как:

Это известно как «Разница в причинно-следственных связях» или «Средний причинный эффект» (ACE). Из нашего предыдущего обсуждения ясно, что оба распределения вычисляются на модифицированном графе. Рассматривая DAG с рис. 3.3, мы имеем:

где мы применили наше понимание причинных графов, чтобы связать распределения вероятностей на модифицированном графе с исходными, которые мы можем вычислить непосредственно из данных наблюдений. Окончательное соотношение:

должно быть очевидно из того факта, что отношения между Y и его входами (X и Z) не изменились, несмотря на то, что мы вручную устанавливаем значение X.

Возвращаясь к выражению ACE, мы можем написать:

который мы можем переписать, благодаря приведенным выше уравнениям инвариантности, как:

которая известна как формула корректировки. Поскольку все величины в правой части этого выражения не изменены, мы можем вычислить их непосредственно из исходных данных.

В качестве практического примера применим формулу корректировки к примеру Парадокса Симпсона из раздела 1.2. Там у нас было:

Если X = 1 (0) - это лекарство (нет лекарства), а Z = 1 - мужской (женский), мы имеем:

Подставив цифры, мы получим:

Итак, финальный АПФ от приема лекарства будет:

Или улучшение результатов на 5%.

Руководствуясь этим примером, мы можем записать общее правило причинно-следственных связей:

Правило 1 (правило причинно-следственных связей): учитывая график G, в котором набор переменных PA обозначен как родительский элемент X, причинный эффект X на Y задается:

где сумма берется по всем возможным значениям переменных PA

Здесь мы отмечаем, что родители X соответствуют исходному Графику G, так как в хирургически модифицированном графе X по определению не имеет родителей.

Сумма значений Родителей X может показаться нелогичной, но ее легко понять. Фиксируя значение X, мы разрываем связь между X и PA, поэтому переменные в PA не могут напрямую влиять на X, но они все еще могут быть связаны с другими переменными в DAG и по-прежнему могут влиять на них. Усредняя по всем возможным значениям PA, мы естественным образом учитываем все эти эффекты.

Давайте применим эту формулу к случаю, когда отношение между X и Z выше:

В этом случае у X нет родителей, поэтому вмешательство в X ничего не меняет. Получаем просто:

В данном случае это выглядит так, как если бы лечение было назначено «как если бы оно было рандомизировано», поскольку не было фактора, определяющего, кто его получал.

Рассмотрим в качестве практического примера SCM из Раздела 1.5:

В этом случае, если мы хотим вычислить P (Y | do (X)), мы имеем:

Откуда сразу можно написать:

Чтобы обобщить вмешательства на несколько переменных, мы просто последовательно применяем различные вмешательства. Например, если нас интересует график с Рис. 2.9:

И желая вмешаться как в X, так и в Z3, мы начнем с написания полного совместного распределения:

Чтобы установить условия для X и Z3, мы просто удаляем все термины, вычисляющие значения X или Z3. :

Поскольку это соответствует измененному графику:

Этот простой пример можно обобщить до «усеченной формулы продукта» или «g-формулы»:

где сумма берется по всем невмешательским переменным.

Я надеюсь, что вам и дальше будет нравиться наше исследование причинно-следственного вывода, и вы найдете эти сообщения полезными и интересными.

Напоминаем, что вы можете найти код для всех приведенных выше примеров в нашем репозитории GitHub:



Уже доступен следующий пост из этой серии:



А если вы хотите получить уведомление, когда выйдет следующий пост, вы можете подписаться на информационный бюллетень The Sunday Briefing: