Как и почему причинно-следственный вывод нас подводит

Вступление

Цель этой публикации - показать, почему причинно-следственный вывод сложен, почему он нас не подводит и почему не помогают DAG.

Практики машинного обучения озабочены прогнозированием, но редко - объяснением. Это роскошь. Мы работаем даже над проблемами, для которых невозможно записать процесс генерации данных. Никто не верит, что модель LSTM, обученная по пьесам Шекспира, работает, потому что она приближается к Шекспиру. Тем не менее, это работает.

В последние годы новые инструменты для причинно-следственного вывода стали доступны для более широкой аудитории. Эти инструменты обещают помочь неспециалистам не только предсказать, но и объяснить закономерности в данных. Направленные ациклические графы и математическое вычисление являются одними из самых влиятельных.

Люди любят блестящие инструменты, и в этом есть опасность. Новые инструменты приходят со спешкой их внедрять, с ощущением авангарда, с новыми возможностями. Это часто делает их ненадежными: ими злоупотребляют, подменяют более совершенной теорией, дизайном или данными.

В этом посте я сосредоточусь на направленных ациклических графах и библиотеке Python DoWhy, потому что группы DAG действительно популярны в сообществе машинного обучения. Пункты, которые я делаю, в равной степени применимы к концепции потенциального результата или к любому другому формальному языку для выражения причинности.

Почему причинно-следственный вывод сложен в теории

Причинный вывод опирается на причинные допущения. Допущения - это убеждения, которые позволяют перейти от статистических ассоциаций к причинно-следственной связи.

Рандомизированные эксперименты являются золотым стандартом причинно-следственного вывода, потому что назначение лечения является случайным и физически управляемым: одна группа получает лечение, другая - нет. Предположения здесь просты, их можно защитить заранее и удобно.

Когда нет контроля над назначением лечения, скажем, с помощью данных наблюдений, исследователи пытаются смоделировать его. Моделирование здесь эквивалентно высказыванию «мы предполагаем, что после поправки на возраст, пол, социальный статус и курение, бегуны и не бегуны настолько похожи друг на друга, как если бы они были случайно назначены для бега». Затем можно регрессировать ожидаемую продолжительность жизни при беге, заявить, что «бег увеличивает продолжительность жизни на n%», и назвать это днем.

Логика этого подхода неуклюжая. Он неявно предполагает, что мы точно знаем, почему люди начинают бегать или живут долго, и единственное, чего не хватает, - это то, что мы пытаемся оценить. История не очень правдоподобная и немного круговая. Кроме того, по счастливому совпадению, все части нашей модели имеют доступные эмпирические прокси, измеренные без ошибок. Наконец, поскольку нет принципиального способа проверить, насколько хорошо модель выбора приближается к реальному механизму назначения, все ее допущения можно обсуждать вечно.

Это подводит нас к ситуации, лучше всего описанной Яасом Секхоном [1]:

«Без эксперимента, естественного эксперимента, разрыва или какой-либо другой надежной конструкции, никакое эконометрическое или статистическое моделирование не может сделать переход от корреляции к причинно-следственной связи убедительным»

Почему причинно-следственный вывод сложен на практике

Поднятые выше опасения лучше продемонстрировать на практических примерах. Хотя их много, я придерживаюсь трех: по экономике, эпидемиологии и политологии.

В 1986 году Роберт Лалонд показал, что эконометрические процедуры не воспроизводят экспериментальные результаты. Он использовал эксперимент, в котором людей случайным образом отбирали в рабочие программы. Рандомизация позволила ему беспристрастно оценить влияние программы на прибыль. Затем он спросил: могли бы мы получить такую ​​же оценку без рандомизации? Чтобы имитировать данные наблюдений, Лалонде построил несколько неэкспериментальных контрольных групп. После сравнения оценок он пришел к выводу, что эконометрические процедуры не в состоянии воспроизвести экспериментальные результаты [2].

Эпидемиология имеет те же проблемы. Рассмотрим историю о холестерине ЛПВП и сердечных заболеваниях. Считалось, что «хороший холестерин» защищает от ишемической болезни сердца. Исследователи даже заявили, что обсервационные исследования устойчивы к ковариативным корректировкам. Однако несколько лет спустя рандомизированные эксперименты показали, что ЛПВП не защищает ваше сердце. Для эпидемиологии такая ситуация не уникальна, и многие эпидемиологические данные позже опровергаются рандомизированными контрольными исследованиями [3].

В свое время исследования роста демократии были горячей темой в политической науке. Исследователи помещают ВВП на душу населения или что-то подобное в левой части своих уравнений, демократию - в правую и, чтобы избежать бесхитростности, ввели кучу средств контроля: продолжительность жизни, уровень образования, численность населения, прямые иностранные инвестиции и другие. Из 470 оценок, представленных в 81 статье, опубликованной до 2006 года, 16% из них показали статистически значимое и отрицательное влияние демократии на рост, 20% - отрицательное, но незначительное, 38% - положительное, но все же незначительное, и 38% оценок, и вы будут действительно удивлены здесь, были положительными и статистически значимыми [4].

Картина ясна: независимо от того, насколько исследователи уверены в своих наблюдательных исследованиях, это не обязательно приближает их к истине.

Почему группы DAG не решают проблему в теории

DAG великолепны. Они обладают большой репрезентативной силой и хорошими выводными свойствами: с учетом полноты до-исчисления, если эффект не идентифицируется с помощью до-исчисления, его нельзя определить где-либо еще, по крайней мере, без дополнительных предположений. Они также имеют образовательный характер: попробуйте нарисовать простую инструментальную настройку переменных, чтобы убедиться в этом самим.

Но дело не в этом. Дело в том, что преимущества, предлагаемые DAG, вступают в игру слишком поздно, чтобы спасти нас от ужасов причинного вывода в данных наблюдений. Верно, что с учетом конкретного графика математическое вычисление говорит нам, что мы можем оценить, а что нет. Однако он не сообщает нам, как создать значимый DAG.

Вот цитата Джорджа Бокса [5]:

«Поскольку все модели ошибочны, ученый должен осознавать, что в основном неверно. Неуместно беспокоиться о мышах, когда за границей водятся тигры ».

Страшные тигры - это слишком много наблюдаемых переменных, чтобы о них рассуждать, бог знает, сколько ненаблюдаемых переменных, вещей, которые мы измеряем с помощью шума, вещей, которые мы даже не можем измерить. В этом случае истинный график неизвестен, а когда истинный график неизвестен, ответом на вопрос, верен ли наш вывод, будет «Нет идеи» или «Нет».

Имея это в виду, многие вещи в DAG становятся менее запутанными, когда мы добавляем «если им известен правильный DAG» [6], [7]:

«Задача выбора подходящего набора ковариат для контроля за искажением была сведена к простой загадке« препятствия », которую можно решить с помощью простого алгоритма [если известен правильный DAG]»

«Разве не было бы замечательно, если бы мы могли сгенерировать те же данные, которые мы использовали для этого графика, из наших данных наблюдений, но сделать их причинными? С современными подходами к каузальному выводу мы можем! [если известен правильный DAG] »

Почему группы DAG не решают проблему на практике

DoWhy - отличная библиотека. Авторы прилагают все усилия, чтобы напомнить пользователям, что причинно-следственный вывод сложен. Однако основная проблема остается. Рассмотрим следующую цитату:

«Концептуально DoWhy был создан на основе двух руководящих принципов: выяснение явных причинно-следственных предположений и проверка устойчивости оценок к нарушениям этих предположений».

Основное предположение состоит в том, что выбранный DAG является правильным среди множества альтернативных DAG - предположение, для которого нет проверок устойчивости. Его также легко нарушить.

Давай нарушим это. Я буду использовать настройку, описанную в DoWhy: различные методы оценки для причинно-следственного вывода. Есть 5 общих причин W, 2 инструмента Z, одна двоичная обработка v0, все остальные эффекты ограничены в пределах [0, 0,5 × βv0], а результат y полностью определяется набором наблюдаемых переменных. Истинный лечебный эффект βv0 равен 10.

Хотя существует множество способов неверно указать модель, я смоделирую очень простой: отсутствует одна переменная U. Даже без одной пропущенной переменной можно нарисовать 511 различных комбинаций стрелок. Я буду придерживаться только части возможных сценариев: U → результат, U → результат и лечение, U → результат и случайная общая причина, U → лечение и случайная общая причина U → случайный инструмент и лечение, U → случайный инструмент и результат.

В учебном пособии авторы использовали шесть оценщиков и сумели приблизиться к 10 пять раз: с линейной регрессией, стратификацией оценок склонности, сопоставлением оценок склонностей, взвешиванием оценок склонностей и инструментальными переменными. В моем моделировании я буду использовать все пять методов. Я проанализирую IV отдельно, поскольку они не полагаются на критерий черного хода.

Первое, на что следует обратить внимание, это то, что когда критерий бэкдора нарушается, как в случае, когда U влияет как на лечение, так и на результат, все оценки существенно искажаются. В этом нет ничего удивительного - мы не можем намеренно нарушить предположение и ожидать, что процедура, основанная на нем, сработает. Однако данный граф находится всего в одном узле и двух ребрах от истинного графа. Этого все еще достаточно, чтобы исказить оценки. Фактически, этот игрушечный пример сделан надежным: все остальные эффекты значительно меньше, чем эффект лечения, одновременно затрагивается только одна общая причина, отсутствует только одна ненаблюдаемая переменная, все измеряется без ошибок. На практике такие условия редки.

Следует также отметить, что оценки регрессии работают лучше, чем оценки склонности. Это потому, что регрессия проще. Например, регресс, когда U влияет на лечение и общую причину, является беспристрастным, поскольку все еще нет открытого пути между лечением и результатом. Это не относится к оценкам оценок склонности, потому что оценки оценок склонностей представляют собой двухэтапные процедуры и требуют двух наборов предположений. Чтобы оценить саму оценку склонности, набор наблюдаемых W должен удовлетворять заднему критерию в отношении лечения. Это не так, поскольку существует открытый путь между W и обработкой через U.

Теперь перейдем к инструментальным переменным. Хороший инструмент - редкость. Иметь два инструмента - беспрецедентная роскошь. В игрушечном примере из учебника есть два действительных инструмента: Z0 и Z1. Я установлю U для случайного воздействия на инструменты, даже если для оценки используется только Z0. Я также установлю как Z0, так и Z1 как непрерывные.

Здесь, в отличие от «черного хода», оценки не оказываются существенно смещенными, когда U влияет на лечение и результат. Причина, по которой оценка IV настолько надежна, заключается в том, что есть только одна стрелка, указывающая от Z0 к v0. Это помогает удовлетворить два предположения: (i) существует связь между Z0 и v0, и (ii) удаление v0 из графа оставляет нет связи между Z0 и y. Тогда, если Cov [U, Z0] = 0 и Cov [y, Z0] ≠ 0, эффект лечения - это просто Cov [y, Z0] / Cov [v0, Z0].

Если же стрелка от U к Z0 существует, то Cov [U, Z0] ≠ 0, что нарушает предположение об ограничении исключения (ii) - что единственный путь, по которому Z0 влияет на результат, - это лечение. В этом моделировании это тот случай, когда U влияет как на инструмент Z0, так и на результат.

Заключение

Направленные ациклические графы и практическое исчисление вполне могут быть наиболее эффективными инструментами. Они не помогут вам сжать данные для причинно-следственных выводов, которых еще нет.

использованная литература

[1] Дж. С. Сехон, Опиаты для спичек: методы сопоставления для причинно-следственного вывода (2009), Ежегодный обзор политологии, 12, 487–508.

[2] Р. Дж. ЛаЛонд, Оценка эконометрических оценок программ обучения с использованием экспериментальных данных (1986), The American Economic Review, 604–620.

[3] Н. Кригер и Г. Дэйви Смит, Ответ: лицом к лицу с реальностью: продуктивная напряженность между нашими эпидемиологическими вопросами, методами и миссией (2016), Международный эпидемиологический журнал, 45 (6), 1852–1865.

[4] Х. Дукулиагос и М. А. Улубашоглу, Демократия и экономический рост: метаанализ (2008), Американский журнал политических наук, 52 (1), 61–83.

[5] Дж. Э. П. Бокс, Наука и статистика (1976), Журнал Американской статистической ассоциации, 71 (356), 791–799.

[6] Дж. Перл, Теоретические препятствия для машинного обучения с семью искрами каузальной революции (2018), препринт arXiv arXiv: 1801.04016.

[7] А. Келлехер и А. Шарма, Введение в do-sampler для причинно-следственного вывода (2019), Medium