Противоречия, средний причинный эффект, рандомизированные эксперименты

В Части 1 этой серии мы говорили о тенденции ассоциации, эвристиках и смешанных переменных. В этом разделе мы продолжим изучение основ причинно-следственного вывода, прежде чем приступать к какой-либо фактической реализации.

Вы узнаете о

  1. Математические обозначения
  2. Контрфактические результаты
  3. Средний причинный эффект, CATE и неоднородность
  4. Рандомизированные эксперименты и взаимозаменяемость

Фон

Ради преемственности и моей радости от бега, побалуйте себя этим примером. Джон Доу, серьезный марафонец, ждал несколько месяцев, чтобы опробовать самые передовые кроссовки, чтобы сэкономить на беге. Наконец он надел новые туфли и пошел на пробежку. Через неделю Джон Доу получает травму. Представьте себе, что из-за хорошей кармы Джон Доу не получил возможности примерить эти новые усовершенствованные кроссовки, он бы бежал, а не через несколько дней. С этой информацией большинство согласится с тем, что «новая усовершенствованная обувь» стала причиной травмы Джона Доу. Новая усовершенствованная обувь оказала причинно-следственное влияние на травму. Представьте себе, есть еще одна бегунья Джейн Доу, которая попробовала новые усовершенствованные кроссовки в тот же день, что и Джон Доу, и неделю спустя она все еще бегает и совершенствуется. Следовательно, «новая усовершенствованная обувь» не оказала причинно-следственного влияния на травму. Это пример человеческой эвристики, определяющей причинно-следственные связи.

Здесь мы сравнили результат (травмы) при ношении действия (новая усовершенствованная обувь) с результатом (травмы) при воздержании от действия (новая усовершенствованная обувь). Если результаты двух действий различны, мы говорим, что действие (новая усовершенствованная обувь) причинно влияет на результат (травмы).

Математические/статистические обозначения

Чтобы измерить Причинный эффект, давайте введем некоторые математические обозначения. В приведенном выше примере рассмотрим бинарную переменную результата как Y (1: травмирован, 0: не травмирован) и переменную лечения A (1: новая усовершенствованная обувь, 0: без новой усовершенствованной обуви).

Список обозначений

С новыми полученными знаниями, поскольку Джон Доу получил травму из-за примерки новой усовершенствованной обуви, мы можем обозначить это как Y a=1 = 1 , но он не получил бы травму, если бы не попробовал новую обувь. обуви, что представлено как Y a=0 = 0. Прочтите это дважды, здесь мы делаем предположение — мы говорим, что если бы он не попробовал новую обувь, он бы не пострадал. На самом деле мы этого не знаем, скоро вы узнаете об этом больше.

Точно так же Джейн Доу попробовала новые туфли и не получила травму, обозначаемую как Y a=1 = 0, она также не пострадала бы, даже если бы не примеряла новые туфли. Итак, Y a=0 = 0. Опять же, мы сделали предположения ради объяснимости.

Чтобы объединить все это на индивидуальном уровне,

Теперь, когда мы остановились на обозначении причинно-следственных связей, давайте поговорим о переменных результата. В этом примере у нас есть бинарная переменная результата со значениями 1 или 0 (1: ранен, 0: не ранен).

Контрфактические результаты

В Таблице 1 собраны данные наблюдений для каждого бегуна, который либо примерял новую обувь, либо нет (наша процедура — примерка новой обуви). Таким образом, один из двух возможных исходов (Травмирован или Не травмирован) является фактическим исходом. В этом случае Джон Доу попробовал новую обувь и получил травму — это фактический результат, который мы наблюдали в данных. Что, если Джон Доу не примерил новую обувь, он все равно будет травмирован? Мы не можем быть уверены! Это контрфактический результат.

Контрфакты — это результаты, которые произошли бы, если бы произошло что-то другое. Концепция причинно-следственной связи сводится к сравнению фактических результатов с контрфактуальными. Но наблюдается только одно из значений потенциальных результатов для каждого человека, а все контрфактические результаты остаются ненаблюдаемыми. Из-за этого возникает проблема расчета индивидуальных причинных эффектов. Все недостающие данные (?) в основном являются вашими контрфактами.

Средний причинный эффект

В общем, идентифицировать отдельные причинные эффекты нелегко, если только субъект не подвергается лечению через разные промежутки времени для измерения контрфактических эффектов. В большинстве случаев это неосуществимо. Таким образом, это привлекает наше внимание к измерению совокупного причинного эффекта.

Ради объяснимости мы собираемся сделать некоторые предположения о наших контрфактах. Мы заменим отсутствующие данные в таблице 1 на то, что произошло бы, если бы наши бегуны не попробовали новую обувь. Мы также предполагаем, что индивидуальные контрфактические результаты при ценности лечения не зависят от ценностей лечения других людей. Это означает, что мы предполагаем, что Джон Доу получит травму, если примерит новую обувь, независимо от того, что Джейн Доу примерит новую обувь. То есть ценность лечения Джейн Доу не повлияла на результаты лечения Джона Доу. Этот эффект называется интерференцией, и в этом примере мы предполагаем, что помех нет. Действия Джона Доу не мешают действиям Джейн Доу, и наоборот.

Чтобы измерить средний причинный эффект, мы теперь смотрим на население. Наше население составляет шесть особей.

Вероятность получить травму в новой обуви Y a=1 = (3/6) = 0,50

Вероятность получить травму при отсутствии новой обуви Y a=0 = (3/6) = 0,50

Возвращаясь к нашему определению причинного эффекта, он присутствует, когда эффект лечения А на результат Y отличается от эффекта отсутствия лечения на результат Y. В этом случае, независимо от того, пробовали ли бегуны новую обувь или нет, мы все равно видим тот же риск получения травмы.

Итак, мы пришли к выводу, что отсутствует средний причинно-следственный эффект из-за примерки новой обуви.

Условный средний эффект лечения (CATE)

Определение CATE похоже на ATE, но для подмножества населения, определенного при определенных условиях. Давайте улучшим таблицу 2 и на этот раз добавим еще один столбец «Возраст». Если мы рассмотрим данные в таблице 3, население можно разделить на две основные группы — 1) возраст ‹ 30 и 2) возраст > 30 лет.

Средний эффект лечения = (1+0–1+1+0–1)/(6) = 0, вывод «Новая усовершенствованная обувь» не оказывает причинно-следственного воздействия на травмы.

Предположим, мы хотим сосредоточиться только на бегунах старше 30 лет. Теперь мы вводим CATE, так как рассматриваем подмножество населения с определенным возрастным условием.

Условный средний эффект лечения = (1+1+0)/3 = 0,66 > 0, заключает, что «Новая усовершенствованная обувь» оказывает причинно-следственный эффект на травмы у этой подгруппы населения. CATE обеспечивает хорошую линзу неоднородности подмножеств населения.

Есть еще два варианта, о которых вы должны знать — Средний эффект лечения на леченных (ATT), он похож на CATE, но теперь подмножество представляет собой только пролеченную популяцию. Второй вариант — «Средний эффект лечения в контроле» (ATC), аналогичный CATE, но подмножество — это только контрольная популяция, те, кто не получал лечения.

Рандомизированные эксперименты и взаимозаменяемость

Как отмечено в Таблице 1, в действительности мы не будем знать полных потенциальных результатов лечения Джона Доу. Скорее, мы можем иметь наблюдаемый результат Джона Доу только при данном лечении. Иными словами, каждому человеку известен только один из двух контрфактических исходов. Другой контрфактический результат — пропущенное значение. Традиционные рандомизированные эксперименты, такие как A/B-тестирование, также генерируют данные с отсутствующими значениями контрфактических результатов. Однако это гарантирует, что эти пропущенные значения возникли случайно. Таким образом, это дает нам более точное измерение воздействия вмешательства.

Как обсуждалось в Части 1, общий рандомизированный эксперимент имеет две вариации — тестовую и контрольную группу. Тестовая группа подвергается лечению, а контрольная группа не подвергается лечению. Разница в воздействии между ними способствует оценке эффекта лечения. Ключом к рандомизированным экспериментам является обеспечение того, чтобы тестовая группа и контрольная группа были похожи по всем возможным атрибутам — это означает, что если мы случайно заменим тестовую группу на контрольную группу и наоборот, эффект лечения должен быть одинаковым. Это концепция взаимозаменяемости. Возможность обмена поддерживает наличие надежных тестовых и контрольных групп, сводя к минимуму любое неотъемлемое смещение между ними.

В следующем посте я сосредоточусь на множественных эффектах лечения, рандомизации и причинно-следственной реализации.

Если вы нашли это важным, похлопайте мне и обязательно подпишитесь, чтобы получать будущие обновления.

Использованная литература -

https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/ https://arxiv.org/pdf/2007.10979.pdf