Наблюдательное исследование, экспериментальное исследование, регрессионная модель, инструментальная переменная, модель разницы в разнице, параметрический тест и непараметрический тест

Нас, специалистов по науке о данных, часто спрашивают: «Влияет ли X на Y?». Y — это результат, который нас волнует. X может быть новой функцией, продуктом или лекарством. Например, владелец веб-сайта хотел бы спросить, приводит ли новый дизайн веб-страницы к более высокому рейтингу кликов или продажам. Исследователь-клиницист спросил бы, будет ли новое лекарство способствовать улучшению здоровья.

К сожалению, необработанной корреляции только между X и Y НЕ недостаточно, чтобы помочь нам установить причинно-следственные связи. Усложняющим фактором здесь является набор других функций, называемых вмешивающимися переменными, которые влияют как на X, так и на Y. Например, такие факторы, как геолокация посетителя, пол, возраст и интерес, могут повлиять как на использование новая функция и результат дохода от продаж. Следовательно, нам нужно изолировать влияние нового дизайна веб-страницы (X) на доход от продаж (Y), контролируя эти смешанные переменные.

Раздел I: Наблюдательное исследование и экспериментальное исследование

Существует две основные категории планов, используемых для изучения взаимосвязи между двумя или более переменными в исследовании: наблюдательный и экспериментальный.

  • В обсервационном исследовании мы наблюдаем и собираем фактические данные (например, X и Y), относящиеся к исследованию, без произвольного наложения какого-либо лечения или ограничений на группу.
  • В экспериментальном исследовании мы случайным образом назначаем лечение группе, в то время как другая группа не получает лечения, чтобы мы могли исследовать причинно-следственную связь между лечением и переменной результата. Дизайн рандомизации и вмешательство отличают экспериментальные исследования от обсервационных исследований.

Проблема: является ли это исследование наблюдательным или экспериментальным?

Исследование 1: В ходе исследования студентов случайным образом распределили в одну из двух групп:

  • Одну группу попросили следовать строгому графику упражнений.
  • Одной группе было запрещено выполнять какие-либо упражнения.

Исследователи посмотрели, какая группа, как правило, получала более высокий средний балл в конце семестра.

Исследование 2. В другом исследовании была выбрана случайная выборка студентов и изучены их привычки к физическим упражнениям. Каждый человек был классифицирован как легко, умеренно или тяжело тренирующийся. Исследователи посмотрели, какие группы, как правило, получают более высокий средний балл в конце семестра.

Исследование 1 — это экспериментальное исследование, а исследование 2 — наблюдательное исследование. Потому что исследование 1 требовало вмешательства исследователей, а исследование 2 — нет.

Различия между наблюдением и экспериментальным исследованием:

  • Экспериментальные исследования, как правило, дороже, поскольку для организации эксперимента требуется больше ресурсов, в то время как обсервационное исследование можно провести с помощью опроса и сбора данных. Исследователи не нуждаются в каком-либо вмешательстве.
  • Экспериментальные исследования, как правило, короче, чем наблюдательные исследования, поскольку вмешательство исследователей позволяет более эффективно собирать необходимые данные для исследования, в то время как сбор данных для наблюдательных исследований может занять несколько лет.
  • Доказательства, предоставленные экспериментальными исследованиями, считаются более убедительными, чем обсервационные исследования. Взаимосвязь между переменными в обсервационном исследовании не является обязательной причинно-следственной связью, в то время как в экспериментальном исследовании рандомизация гарантирует, что другие ковариаты (например, возраст, пол, географическое положение, покупательская привычка) равномерно распределены между экспериментальной и контрольной группами, а наши выборки репрезентативны для нашей популяции, чтобы мы могли более точно исследовать причинно-следственный эффект лечения на интересующий нас результат.

Похоже, экспериментальные исследования имеют больше преимуществ, чем наблюдательные. Однако в некоторых исследованиях экспериментальные исследования НЕ подходят. Например,

  • Вы проводите исследование, основанное на исторических данных, в которых не было рандомизированного назначения лечения в прошлом.
  • Лечение можно только наблюдать, а не навязывать. Исследователи не могут манипулировать некоторыми эффектами лечения (например, полом, уровнем дохода семьи, расой и т. д.).
  • Наложение режима на группу считается неэтичным. Например, мы хотели бы выяснить, как изменение цены продукта повлияет на доход от его продажи. Если мы проведем экспериментальное исследование, взимая с группы клиентов более высокую цену, чем с другой группы в том же месте и в то же время, это будет неэтично и приведет к пиар-катастрофе. В другом примере мы хотели бы выяснить, повлияет ли получение высшего образования на получаемый доход. Опять же, мы не можем навязывать некоторым людям «иметь высшее образование». Это не только невозможно, но и неэтично.

Раздел II: Наблюдательное исследование с эконометрическими моделями

Регрессионнаямодель

Эконометрические модели (также известные как контролируемая регрессия) — это популярный метод наблюдательного исследования для оценки того, как изменение переменных-предикторов (например, лечение X и другие ковариаты) связано с изменением переменной отклика (Y). Важно отметить, что с помощью модели контролируемой регрессии мы можем изолировать влияние одной переменной (например, лечения X), сохраняя неизменными все остальные переменные-предикторы.

Контролируемая регрессия может контролировать не только ковариаты (которые влияют на переменную ответа), но и вмешивающиеся переменные, которые могут влиять как на лечение X, так и на переменные ответа Y. .

Например, веб-сайт электронной коммерции хотел бы выяснить, увеличит ли функция виртуальной примерочной на его веб-сайте его доход от продаж. Если мы просто регрессируем эту функцию веб-сайта по выручке от продаж, мы легко увидим положительную корреляцию между функцией виртуальной примерочной и выручкой от продаж. Если мы просто остановимся на этом, эффект от функции будет смещенным (также известным как Смещение опущенной переменной), поскольку в модель не включена важная смешанная переменная, ВОЗРАСТ. Основываясь на дополнительном анализе данных, мы смогли выяснить, что более молодые клиенты, как правило, чаще пользуются виртуальной примерочной, а более молодые клиенты, как правило, тратят больше на этом веб-сайте электронной коммерции. Если мы не включим переменную AGE в контролируемую регрессию, эффект функции может быть смещенным.

Background: Age is positively related to both Virtual_Fitting_Room and Sale_Revenue.
Controlled Model 1: β1 here is biased.
Sale_Revenue = β1 * Virtual_Fitting_Room + C
Controlled Model 2: β1 here is estimated more precisely and R-square is higher.
Sale_Revenue = β1 * Virtual_Fitting_Room + β2 * Age + C

Советы по проверке наличия пропущенной переменной смещения в контролируемой модели

  • Если добавление предикторной переменной в регрессионную модель значительно увеличит R-квадрат, эффект лечения также изменится на значительную величину. Вполне вероятно, что предыдущая модель страдает смещением пропущенных переменных.
  • Если включение дополнительных переменных в модель не влияет значимо на эффект лечения, то мы более уверены в том, что предполагаемый эффект лечения является истинным причинно-следственным эффектом между лечением и переменной ответа.

Устранение пропущенной переменной смещения с помощью инструментальной переменной

Еще одна проблема в наблюдательных исследованиях заключается в том, что смешанные переменные существуют концептуально, но НЕ могут быть измерены или наблюдаемы, поэтому эффект лечения будет страдать от смещения пропущенных переменных. Включение в модель инструментальной переменной (IV) является популярным методом решения этой проблемы.

Давайте определим эту инструментальную переменную Z:

  • Z не коррелирует ни с какими другими ковариатами (включая член ошибки) в модели.
  • Z значимо и сильно коррелирует с лечением X, поэтому косвенно влияет на Y через X

На практике инструментальная переменная может быть реализована в два этапа:

  • Шаг 1: Мы регрессируем инструментальную переменную на X. Имейте в виду, что нам нужна сильная корреляция между IV и X. В противном случае у нас все еще может быть систематическая ошибка в отношении эффекта лечения.
  • Шаг 2: Мы регрессируем Y по предсказанному X с шага 1 и другим ковариатам. Так мы точнее оцениваем эффект лечения.

Применение инструментальной переменной

Пример успеха. Сайт социальной сети хотел бы выяснить, повышает ли вероятность того, что пользователь вернется на сайт, наличие большего количества друзей в той же социальной сети.

Во-первых, экспериментальное исследование исключено из таблицы, потому что мы не можем случайным образом определить людей, у которых больше друзей, чем у других. Во-вторых, включение всех смешанных переменных невозможно. Использование инструментальной переменной кажется более простым путем. Сайт социальной сети должен иметь существующую стратегию, позволяющую приглашать на сайт больше друзей. Например, возможность отправки приглашений друзьям с помощью контактов друзей пользователя.

Background: This feature of Send_Invitations_to_friends is related to number_of_friends, but not related to any other covariates for Return.
Step 1 of IV Model: β1 should suggest strong positive correlation between Send_Invitations_to_friends and Number_of_friends
Number_of_friends = β1 * Send_Invitations_to_friends + C
Step 2 of IV Model: β2 can estimate effect of number of friends on Return more precisely.
Return_Flag = β2 * Predicted_Number_of_friends + C

Модель различия в различиях

Когда инструментальная переменная невозможна, нам нужен альтернативный способ контролировать влияние ненаблюдаемых смешанных переменных. Модель Difference-in-Difference (DiD) может быть приемлемым вариантом. В нем сравниваются результаты как до лечения, так и в период лечения между лечебной и контрольной группами. Ключевое допущение, необходимое для модели глубокоэшелонированной защиты, заключается в следующем:

  • Если лечение НЕ навязывается, переменные исхода в группе лечения и контрольной группе будут следовать параллельным тенденциям.
  • Любые ковариаты (включая пропущенные переменные) будут одинаково влиять на переменные исхода экспериментальной и контрольной групп.

Применение модели различия в различиях

Пример успеха. Розничный магазин хотел бы выяснить, приведет ли повышение цены к увеличению дохода от продаж.

Во-первых, экспериментальное исследование исключено из таблицы, потому что случайное взимание платы за продукт по разным ценам в одном и том же месте считается неэтичным. Во-вторых, построение как смешанных переменных, так и инструментальной переменной само по себе является сложной задачей. В этом случае модель «Разница в разнице» является лучшим вариантом.

Мы можем выбрать два розничных магазина в разных городах, и эти два города также сопоставимы по населению, уровню доходов и спросу на товар (предположение о параллельных тенденциях).

Магазин в городе 1 (исследуемая группа) взимал с покупателей более высокую цену (лечебный эффект) в экспериментальный период, чем в контрольный период, в то время как магазин в городе 2 ( контрольная группа) взимала с клиентов одинаковую цену в течение обоих периодов.

мы можем сравнить, как изменяется выручка между двумя городами после повышения цен, используя модель глубокого проникновения.

Background: Trends of sale revenue from both cities are parallel in both the pre-treatment period and treatment period (if the price change is not imposed.)
DiD Model: "Treatment_period" is an indicator of the timing that a price increase is imposed (treatment period: 1; Pre-treatment period: 0). "Treatment_Group" is an indicator of the treatment and control groups (City_1: 1; City_2: 0). The effect of the Interaction term between "Treatment_period" and "Treatment_group"(β3) estimates the pure effect of price increase on sale revenue.
Sale_Revenue = β1 * Treatment_period + β2 * Treatment_group + β3 * Treatment_period * Treatment_Group + C
  • β1: Он оценивает влияние на переменную ответа в период лечения факторов, отличных от нашего лечения.
  • β2: оценивает среднюю разницу между экспериментальной и контрольной группами.
  • β3: Он оценивает чистый эффект лечения на переменную отклика.

Раздел III: Экспериментальное исследование с A/B-тестированием

В этом разделе мы поговорим о другом мощном инструменте для причинно-следственной связи — A/B-тестировании.

Тест A/B (также известный как рандомизированное контролируемое исследование), возможно, является наиболее точным инструментом для исследования причинности. Постоянно определяя новые цели с точки зрения коэффициентов конверсии и показателей вовлеченности, а также тестируя новые функции, веб-сайт может повысить свою производительность, а приложение — привлечь и удержать больше пользователей. Поэтому A/B-тестирование широко используется в технологической отрасли в последние годы.

A/B-тестирование обычно выполняется в несколько необходимых этапов: формирование гипотезы, объем выборки расчет, рандомизациядизайн, последующее тестирование Анализ.

Гипотеза

Формирование гипотезы — первый шаг любого A/B-тестирования. Гипотеза — утверждение, описывающее причинно-следственную связь, которую вы хотите исследовать. Приведем пример гипотезы.

Null hypothesis (H0): ABC e-commerce site visitors who receive email coupons will NOT have higher purchase conversion rate compared to visitors who don’t receive email coupons. 
Alternative hypothesis (H1): ABC e-commerce site visitors who receive email coupons will have higher purchase conversion rate compared to visitors who don’t receive email coupons.

Каждая гипотеза состоит из ключевых компонентов: Население, Лечение, Показатель оценки, Нулевая и альтернативная гипотезы.

Население:нам нужно определить, какие субъекты имеют право на участие в эксперименте (например, все пользователи или пользователи из определенного местоположения), а также как определить отдельного субъекта (также известного как единица отклонения). В приведенном выше примере популярными являются все посетители сайта электронной коммерции ABC, а единицей отклонения является идентификатор пользователя.

Обработка (Вмешательство): Обработкой может быть новая функция или новый дизайн. В приведенном выше примере обработка будет заключаться в получении купонов по электронной почте. Имейте в виду, что лечение обычно может быть только ОДНИМ вмешательством. Мы не можем применять несколько изменений в одной группе. Например, если мы отправим купоны по электронной почте и почтовые купоны для эксперимента, мы не сможем отличить эффект от обоих вмешательств.

Лечебная и контрольная группы: Любые субъекты, которым назначено лечение, будут принадлежать к лечебной группе. Любые субъекты, которым лечение НЕ навязывалось, будут в контрольной группе.

Метрика оценки (переменная результата): метрика оценки — это результат, который нам важен и который будет изучен. В приведенном выше примере метрикой оценки является коэффициент конверсии покупок, который определяется как соотношение между количеством посетителей, совершивших покупки, и общим количеством посетителей в эксперименте.

Существуют различные типы показателей оценки. Например,

  • Счетчики: показатели вовлеченности, такие как активные пользователи за день (DAU), активные пользователи за неделю (WAU), активные пользователи за месяц (MAU) и привязанность пользователей (DAU/MAU), являются общими показателями оценки.
  • Распределение (например, среднее значение, процентили): метрика оценки может быть распределением. Например, среднее время сеанса на сайте или среднее количество кликов до конверсии.
  • Вероятность и отношение: показатель оценки также может быть отношением. Например, коэффициент конверсии, который определяется количеством испытуемых, которые совершают желаемое действие (например, щелкают внизу, совершают покупку) по отношению к общему количеству испытуемых в эксперименте. Уровень удержания, который измеряет процент пользователей, возвращающихся на ваш сайт или в приложение в течение определенного периода времени. Отслеживание коэффициентов конверсии и показателей удержания позволяет отслеживать эффективность веб-сайта и определять области для улучшения.

Нулевая и альтернативная гипотеза.Нулевая гипотеза будет утверждать, что нет никакой разницы в переменной результата между группой лечения и контрольной группой. Другими словами, лечение не повлияет на результат. Альтернативная гипотеза утверждает, что существует статистическая разница в результатах между двумя группами.

Расчет размера выборки

Следующим шагом является расчет размера выборки для эксперимента. Нам нужно определить несколько вещей перед расчетом.

  • Размер эффекта: это разница переменной результата (например, изменение коэффициента конверсии) между экспериментальной и контрольной группами. Имейте в виду, что при достаточном размере выборки даже крошечные изменения в эксперименте будут признаны статистически значимыми. Поэтому вам нужно подумать о влиянии изменений на бизнес и их практической важности. Вам нужно задать вопрос «Каково минимальное влияние на результат вмешательства, чтобы его было целесообразно запускать?» с учетом затрат на разработку и упущенных возможностей. Кроме того, чем меньше размер эффекта, тем больше данных потребуется и тем дольше будет длиться тест.
  • Уровень статистической значимости и мощность: Обычно уровень значимости устанавливается равным 0,05, а мощность устанавливается равной 0,8. Уровень значимости (также известный как ошибка типа I) — это приемлемая вероятность ложного обнаружения эффекта, когда эффект отсутствует. Таким образом, чем меньше уровень значимости, тем лучше тест и тем больше данных потребуется. Мощность — это вероятность того, что тест обнаружит эффект, когда эффект присутствует. Таким образом, чем выше мощность, тем лучше тест и тем больше данных потребуется.
  • Стандартное отклонение: это дисперсия переменной результата. Когда это трудно получить, мы можем положиться на исторические данные или знания экспертов в предметной области, чтобы оценить это.Чем выше стандартное отклонение, тем больше данных нам потребуется
  • Расчет размера выборки: если у вас есть информация, упомянутая выше, по следующей формуле можно рассчитать размер выборки. Z-значения являются стандартной оценкой по отношению к значениям уровня значимости и мощности. значение σ представляет собой стандартное отклонение. µc-µt – размер эффекта.

Рандомизация

Когда у нас есть гипотеза и размер выборки, мы можем случайным образом распределить субъектов по экспериментальной и контрольной группам. Рандомизация — это ключ к успеху беспристрастногоA/B-тестирования. Он должен соответствовать следующим требованиям:

  • необходимо убедиться, что образцы в тесте репрезентативны для населения. Таким образом, вывод, сделанный на основе выборки, можно применить к генеральной совокупности.
  • необходимо убедиться, что ковариантыравномерно распределены между экспериментальной и контрольной группами. Любые факторы (например, пол, уровень дохода, местоположение, тип устройства), которые могут повлиять на переменную результата, должны быть равномерно распределены. Так что мы можем изолировать влияние на лечение, сохраняя при этом другие ковариаты сопоставимыми.

Анализ после тестирования

Прежде чем мы проанализируем, как лечение влияет на нашу переменную результата в эксперименте. нам нужно провести проверку работоспособности в эксперименте. Метрики, которые мы используем для проверки работоспособности, называются инвариантными метриками (например, количество файлов cookie), на которые не должен влиять эксперимент. Таким образом, не должно быть изменений в инвариантных показателях между контрольной и экспериментальной группами. В противном случае имеются недостатки в установке эксперимента.

Как только он пройдет проверку работоспособности, мы можем обработать его, проанализировав фактические данные, которые нам нужны. Есть много методов, которые мы можем использовать, чтобы выяснить, отличается ли переменная результата между контрольной и экспериментальной группами.

Параметрические тесты. Параметрические тесты работают хорошо, когда переменная результата относительно нормально распределена. Ниже приведены некоторые из популярных параметрических тестов:

  • Критерий Стьюдента: мы предполагаем, что дисперсии переменной результата одинаковы между контрольной и экспериментальной группами.
  • Т-критерий Уэлча: когда размеры выборки или дисперсии НЕ сопоставимы, t-критерий Уэлча превзойдет t-критерий Стьюдента.
  • Тест ANOVA: иногда существует несколько групп лечения. Прежде чем мы запустим несколько t-тестов, мы можем сначала запустить тест ANOVA, который использует F-тест, чтобы определить, различаются ли средние значения трех или более групп. Если p-значение F-теста мало, мы знаем, что по крайней мере одна группа отличается от остальных. Затем мы можем потратить время на выполнение парных t-тестов, чтобы выяснить, какая группа отличается. Имейте в виду, что при выполнении несколько тестов нам необходимо исправить P-значение, используя поправку Бонферрони или коэффициент ложного обнаружения (ФДР).

Непараметрический тест. Непараметрические тесты не делают предположений о распределении базовых данных. Они являются жизнеспособными вариантами, когда непрерывная переменная результата НЕ имеет нормального распределения или есть два или более категориальных результата. Ниже приведены некоторые из популярных непараметрических тестов:

  • Тест хи-квадрат: это тест независимости, который позволяет проверить, существует ли статистически значимая связь между лечением и переменными исхода. Он может работать с категориальными данными с двумя или более значениями результатов, в то время как t-тест может обрабатывать только категориальные данные с двумя значениями результатов.
  • Точный критерий Фишера: критерий хи-квадрат надежен только в том случае, если размер выборки относительно велик (т.е. n > 1000). Если этот порог не соблюдается, вместо него можно использовать точный критерий Фишера.
  • U-тест Манна-Уитни (критерий суммы рангов Уилкоксона): в этом тесте вместо фактических значений будут использоваться ранги. При сравнении непрерывных переменных, которые не имеют нормального распределения, или при небольшом размере выборки хорошим вариантом будет критерий суммы рангов Уилкоксона.

Проблемы в A/B-тестировании и решения

  • Остановите A/B-тестирование слишком рано.После того, как мы рассчитаем размер выборки, мы узнаем количество дней для проведения теста, разделив средний дневной трафик. Если число меньше недели, мы должны продолжать проводить тест не менее 2 недель. Если возможно, лучше 1-2 бизнес-цикла. Люди ведут себя по-разному изо дня в день (например, в будние и выходные дни) и подвержены влиянию внешних событий (например, праздники, налоговый сезон, лето и зима). Мы можем получить более надежный результат с расширенным тестом.
  • Сетевой эффект. На платформах социальных сетей поведение пользователей, скорее всего, зависит от поведения людей из их социальных кругов, поэтому предположение о независимости пользователей не выполняется. При случайном распределении каждого пользователя в контрольную и лечебную группы лечебный эффект от теста обычно недооценивается, поскольку лечебный эффект может распространиться на контрольную группу через круг общения лечебной группы. Чтобы решить эту проблему, мы можем использовать кластерную рандомизацию, которая поместит пользователей в один и тот же круг общения в одну и ту же группу.
  • Эффект новизны и эффект первенства: люди по-разному реагируют на новые изменения/функции продукта. Некоторые люди могут быть в восторге от любых новых изменений и хотели бы поэкспериментировать с ними, чтобы попробовать что-то новое. Такое поведение называется Эффект новизны. С другой стороны, некоторые люди могут сопротивляться любым изменениям продукта. Это называется эффектом первенства или отвращением к изменениям. Если вы наблюдаете меньший или больший первоначальный эффект, это, вероятно, связано с эффектом новизны или первичности. Чтобы решить эту проблему, мы можем увеличить продолжительность теста, поскольку эти эффекты со временем исчезнут. В качестве альтернативы, мы можем провести A/B-тест на НОВЫХ пользователях только потому, что новые пользователи будут иметь свежий взгляд и не должны быть затронуты этими эффектами.
  • Противоречивые результаты. Иногда мы могли видеть противоречивые результаты нескольких показателей оценки (например, коэффициент конверсии увеличивается, но коэффициент удержания снижается). Чтобы решить эту проблему, мы можем придумать один OEC (критерий общей оценки), который учитывает как краткосрочные, так и долгосрочные цели, а также компромиссы между различными показателями. Однако вы должны быть в состоянии количественно оценить как положительное, так и отрицательное воздействие и убедиться, что отрицательное влияние приемлемо.

Заключительные примечания

Вот несколько статей по теме, которые вы можете изучить, если вас интересуют линейная регрессия и причинно-следственный вывод.

Спасибо за чтение !!!

Если вам понравилась эта статья и вы хотите Купить мне кофе, нажмите нажмите здесь.

Вы можете подписаться на членство, чтобы разблокировать полный доступ к моим статьям и иметь неограниченный доступ ко всему на Medium. Пожалуйста, подпишитесь, если хотите получать уведомления по электронной почте всякий раз, когда я публикую новую статью.