"О, Боже! Что такое контрфактика?» — Руководство для ученых, занимающихся элементарным причинным выводом!

ПРИЧИННЫЙ ВЫВОД

Что такое Контрфактический? - Руководство для ученых, занимающихся элементарным причинным выводом

Суть причинного вывода заключается в сравнении. Следовательно, для ученого абсолютно важно понять, определить и разработать достоверные контрфакты, что приведет к обоснованным выводам и, следовательно, к обоснованным решениям. В этой статье я объясню, что такое контрфактуальность.

Это мой второй пост о причинно-следственных связях. В моем первом посте я рассказываю об основах причинно-следственных связей и о том, как они используются для принятия бизнес-решений. В этом посте я подробно расскажу о противоречиях, валидности и предвзятости в причинно-следственных связях.

Что, если?

Этот вопрос интересовал людей с древних времен. Что, если бы я выбрал другой маршрут, чтобы добраться до офиса сегодня? Что, если бы британцы не создали Ост-Индскую компанию в Индии? Что, если бы я выбрал инженерное дело, а не естественнонаучную степень? Что, если бы мы дали скидку всем нашим клиентам, а не покупателям с высокой стоимостью? Что, если бы мы решили инвестировать больше в маркетинг, чем в разработку продукта?

Все вопросы, которые написаны выше, заставляют нас думать о чем-то ненаблюдаемом и нереальном. Это воображаемая конструкция. Поскольку в физическом пространстве, в котором мы живем, мы не можем видеть альтернативные сценарии для одного и того же, нам нужен способ воображения этого альтернативного мира, называемый контрфактическим сценарием без вмешательства. Оценка и создание эмпирического контрфактуала помогает нам измерить влияние наших действий и эффекты, наблюдаемые в результате наших вмешательств. Разница между фактическими результатами, которые мы видим, и результатами, которые могли бы произойти, дает нам реальную меру воздействия. Таким образом, ключевой задачей, стоящей перед нами, является выявление и измерение достоверных контрфактических оценок.

Проблемы с непротиворечивыми методами

Рефлексивное сравнение, также известное как сравнение до и после. Этот простой метод требует тестирования одного и того же набора групп населения до и после вмешательства. Например, измерение баллов по математике и способностям к чтению группы учащихся, обучение их в течение года и повторное измерение результатов после обучения. Другим примером может быть предоставление специальной скидки лояльности для всех клиентов и измерение их средней стоимости покупок до и после этой скидки. Проблема этого метода в том, что он приводит к запутанной причинно-следственной связи. Простыми словами. это означает, что мы не можем быть на 100% уверены, что изменение до и после вызвано вмешательством.
Поперечное сравнение, также известное как сравнение яблок и апельсинов. Этот неверный метод сравнивает людей, участвовавших в программе, с другими другими людьми, не участвовавшими в программе. . Например, сравнение покупателей с высоким доходом и низкой стоимостью с покупателями с низким доходом. Проще говоря, в этом методе не проводится сравнение яблок с яблоками, что приводит к неправильным выводам.

Поэтому наша цель состоит в том, чтобы сравнение не смешивалось с другими факторами. Другими словами, мы хотели бы создать ситуацию, в которой существует четкая статистическая эмпирическая группа сравнения, похожая на группу вмешательства, с той лишь разницей, что одна группа получает лечение, а другая нет. Таким образом, вся область оценки воздействия/каузального вывода связана с созданием наилучшей оценки контрфактического. В следующем разделе мы узнаем, как это делается.

Контрольная группа ИЛИ группа сравнения

Один из подходов, который предлагают ученые, — это использование контрольной группы или группы сравнения. Многие авторы используют это слово взаимозаменяемо, но здесь полезно провести различие. Контрольная группа используется для экспериментальных методов, тогда как группа сравнения используется для квазиэкспериментальных методов или естественных экспериментов. Предположим, мы хотели бы знать, влияет ли скидка за лояльность или бесплатная доставка на покупательское поведение наших клиентов. Чтобы измерить это, мы случайным образом делим наших клиентов со схожими демографическими данными и моделями покупок на две группы: одна группа получает скидку или бесплатную доставку, а другая — нет. Поскольку это эксперимент, здесь уместно использовать слово «контрольная группа» для той группы, которая не получает скидок или бесплатной доставки. Однако нам необходимо убедиться, что эти группы являются сбалансированными и имеют схожие характеристики.

Типы дизайнов

Дизайны можно разделить на два основных класса: экспериментальные проекты и неэкспериментальные проекты. Дизайн формирует стратегию того, как определяется, создается и оценивается контрфактуальное.

Экспериментальные планы также называются рандомизированными контролируемыми испытаниями или A/B-тестированием. Их часто называют золотым стандартом в дизайне оценки. В отрасли используется термин «A/B-тестирование», а в исследованиях и эконометрике используется термин «рандомизированные контролируемые испытания». Всегда невозможно провести рандомизированное контролируемое исследование по социальным, экономическим, политическим, этическим или операционным причинам.

Неэкспериментальные модели используют данные наблюдений, которые мы получаем после выполнения действия. Основное отличие состоит в том, что исследователь не может контролировать механизм назначения, другими словами, исследователь не может контролировать, кто получает вмешательство, а кто нет. В этих ситуациях исследователь получает данные, а не участвует в их создании. Эти методы можно разделить еще на три части.

Естественные эксперименты. Эти «эксперименты» делят однородный набор популяций на две разные группы, где одна группа подвергается вмешательству, поскольку они расположены в географическом районе. Например, разделить деревню шоссе и измерить показатели здоровья людей, проживающих на той стороне, где находится центр первичной медико-санитарной помощи, и в конечном итоге сравнить их с теми, кто живет на стороне деревни, где нет ПМСП.
Квазиэкспериментальные методы. В этих методах используются статистические методы для создания контрфактических данных. Некоторые из методов включают разность в разнице, сопоставление показателей склонности и дизайн разрыва регрессии.
Методы на основе регрессии. Участие в вмешательстве определяется фиктивной переменной. Некоторые из методов включают модели эндогенного лечения, инструментальные переменные, регрессии с переключением и двойную надежную регрессию.

Напишу подробнее о каждом из способов. Вышеуказанные методы требуют от исследователя наличия большого количества наблюдений. Количество наблюдений, необходимых для четкого статистического обнаружения эффекта, можно рассчитать с помощью расчетов мощности. Я не буду вдаваться в подробности. Но иногда невозможно иметь большое количество наблюдений, например, принятие политики в стране или организации. Такие ситуации позволяют нам иметь большое количество наблюдений на одном и том же устройстве в течение более длительного периода времени. Есть два метода, которые можно использовать для анализа этих ситуаций.

Метод синтетического контроля. Метод синтетического контроля – это статистический метод оценки эффектов лечения в сравнительных исследованиях конкретных случаев.
Дизайн прерывистых временных рядов. Дизайн прерывистых временных рядов (ITS) предполагает последовательный сбор данных до и после прерывания. Это означает введение и отзыв вашего цифрового продукта или услуги или какой-либо его части, а затем посмотреть, изменится ли что-нибудь в результате, который вы оцениваете.

Эти методы приводят нас к принятию решений, основанных на фактических данных. Чтобы убедиться, что решения верны, нам нужно помнить о концепции валидности и определить три вида валидности.

Внутренняя валидность. Это означает, что существует баланс между контрольной группой и группой вмешательства. Если эти группы не похожи, мы не можем с уверенностью сказать, сработало ли наше вмешательство.
Внешняя достоверность. Это означает, что результаты анализа могут быть распространены на более широкую аудиторию. Лучший способ гарантировать это — иметь репрезентативную основу выборки, из которой берутся рандомизированные единицы.
Конструктивная достоверность. Это означает, что индикаторы, используемые для измерения явления, являются допустимой конструкцией для этого явления. Например, баллы по математике и языку являются хорошей конструкцией для измерения учебных способностей учащегося. Еще одним примером может быть покупательское поведение клиентов, что может быть хорошей конструкцией для их симпатии к нашей платформе. Чтобы иметь надежную конструкцию, желательно иметь экспертные знания в предметной области.

Предубеждения и проблемы в причинно-следственных связях

Есть некоторые проблемы, которые возникают, когда кто-то использует причинно-следственную связь для принятия деловых решений. Их не всегда можно предотвратить, но формулирование того, что они могут существовать, и четкое изложение допущений, при которых выполняется анализ, помогает выносить суждения и принимать более обоснованные решения. Четыре из них требуют особого упоминания.

Смешение. Смешение относится к ситуации, в которой третья неучтенная переменная влияет как на нашу зависимую, так и на независимую переменную, вызывая ложную корреляцию. Если между леченными и нелеченными группами есть что-то, кроме вмешательства, которое отличается, то мы не можем окончательно сказать, что любая разница, наблюдаемая в интересующем исходе между двумя группами, связана исключительно с вмешательством. Такая разница также может быть связана с этими другими переменными, которые различаются между этими группами.
Предвзятость отбора. Существует разница между теми, кто участвует в деятельности, и теми, кто не участвует. Подход, принятый для борьбы с предвзятостью выбора и другими объединяющими факторами, называется стратегией идентификации. Наличие сильной стратегии идентификации приводит к сильному анализу. Например, сравнивать результаты покупок тех, кто покупает меньше на нашем сайте, с теми, кто покупает больше, и делать вывод, что вмешательство не сработало, неправильно.
Загрязнение или заражение — это проблема, которая чаще всего возникает при оценке сектора развития. Одно и то же население получает выгоду от нескольких агентств, что приводит к загрязнению деятельности. В контролируемых онлайн-экспериментах это вряд ли будет проблемой.
Побочные эффекты. Иногда эффекты вмешательства можно увидеть и в других местах. Рекомендуется иметь разумное географическое разделение. Еще раз повторю, что этот вопрос чаще всего встречается в программах оценки развития.

Я надеюсь, что у вас есть понимание контрфактических и различных типов планов, которые можно использовать для измерения эффектов вмешательства как в коммерческих, так и в исследовательских приложениях. Чтобы узнать больше обо мне и моей работе, свяжитесь со мной в LinkedIn по адресу https://www.linkedin.com/in/aayushmalik/.

Счастливого обучения!