Как нижние границы с высокой вероятностью (HPLB) для общего расстояния вариации могут привести к интегрированной привлекательной тестовой статистике в A/B-тестировании.

Авторы: Лорис Мишель, Джеффри Нэф

Классические шаги общего A/B-теста, т. е. определение того, происходят ли две группы наблюдений из разных распределений (скажем, P и Q), таковы:

  • Предположим нулевую и альтернативную гипотезу (здесь соответственно P=Q и P≠Q);
  • Определить уровень значимости альфа;
  • Построить статистический тест (бинарное решение, отклоняющее нуль или нет);
  • Получить тестовую статистику T;
  • Получите p-значение из приближенного/асимптотического/точного нулевого распределения T.

Однако, когда такой тест отклоняет нулевое значение, то есть когда значение p является значимым (на данном уровне), нам все еще не хватает меры того, насколько сильно различие между P и Q. На самом деле статус отклонения теста может оказаться бесполезной информацией в современных приложениях (сложные данные), потому что при достаточном размере выборки (при условии фиксированного уровня и мощности) любой тест будет склонен отклонять нулевое значение (поскольку он редко бывает точным). истинный). Например, может быть интересно получить представление о том, сколько точек данных поддерживает разницу в распределении.

Поэтому, основываясь на конечных выборках из P и Q, более тонкий вопрос, чем «отличается ли P от Q?» можно сформулировать так: «Какова вероятностная нижняя граница доли наблюдений λ, фактически поддерживающих разницу в распределении между P и Q?». Формально это переводится в построение оценки λˆ, удовлетворяющей λˆ ≤ λ с высокой вероятностью (скажем, 1-альфа). Мы называем такую ​​оценку нижней границей высокой вероятности (HPLB) для λ.

В этой истории мы хотим мотивировать использование HPLB в A/B-тестировании и привести аргумент, почему правильным понятием для λ является общее расстояние вариации между P и Q, то есть TV(P, Q). Мы сохраним пояснения и подробности о конструкции такого HPLB для другой статьи. Вы всегда можете проверить нашу бумагуr для получения более подробной информации.

Почему общая дистанция отклонения?

Полное расстояние вариации — это сильная (точная) метрика вероятностей. Это означает, что если два распределения вероятностей различны, то их общее расстояние вариации будет ненулевым. Обычно его определяют как максимальное расхождение вероятностей на множествах. Однако он имеет более интуитивное представление в виде дискретного переноса меры между вероятностями P и Q (см. рис. 2):

Полное вариационное расстояние между вероятностными мерами P и Q — это доля вероятностной массы, которую нужно изменить/переместить от P, чтобы получить вероятностную меру Q (или наоборот).

С практической точки зрения общее расстояние вариации представляет собой долю точек, которые различаются между P и Q, что как раз и является правильным понятием для λ.

Как использовать HPLB и его преимущества?

Оценка λˆ привлекательна для A/B-тестирования, потому что это единственное число влечет за собой как статистическую значимость (как и p-значение), так и оценку величины эффекта. Его можно использовать следующим образом:

  • Определите уровень достоверности (1-альфа);
  • Построить HPLB λˆ на основе двух образцов;
  • Если λˆ равно нулю, то не отклоняйте нуль, в противном случае, если λˆ > 0, отбрасывает нуль и делает вывод, что λ (отличающаяся дробь) не меньше λˆ с вероятностью 1-альфа.

Конечно, расплатой является то, что значение λˆ зависит от выбранного уровня достоверности (1-альфа), тогда как p-значение от него не зависит. Тем не менее, на практике уровень достоверности не сильно различается (обычно устанавливается на уровне 95%).

Рассмотрим пример величины эффекта в медицине. Новое лекарство должно иметь значительный эффект в экспериментальной группе по сравнению с группой плацебо, которая не получала лекарство. Но также имеет значение, насколько велик эффект. Таким образом, следует не только говорить о p-значениях, но и давать некоторую меру размера эффекта. В настоящее время это широко признано в хороших медицинских исследованиях. Действительно, подход, использующий более интуитивный подход к расчету TV(P,Q), использовался в однофакторной настройке для описания различий между экспериментальной и контрольной группами. Наш подход HPLB обеспечивает как меру значимости, так и размер эффекта. Проиллюстрируем это на примере:

Давайте сделаем пример

Мы моделируем два распределения P и Q в двух измерениях. Таким образом, P будет просто многомерной нормой, а Q — смесь между P и многомерной нормой со сдвинутым средним.

library(mvtnorm)
library(HPLB)
set.seed(1)
n<-2000
p<-2
#Larger delta -> more difference between P and Q
#Smaller delta -> Less difference between P and Q
delta<-0
# Simulate X~P and Y~Q for given delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="darkblue")
points(X, cex=0.8, col="red")

Дельта веса смеси контролирует, насколько сильно различаются два распределения. При изменении дельты от 0 до 0,9 это выглядит так:

Затем мы можем рассчитать HPLB для каждого из этих сценариев:

#Estimate HPLB for each case (vary delta and rerun the code)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Если мы сделаем это с указанным выше семенем, мы

Таким образом, HPLB удается (i) обнаружить, когда в двух распределениях действительно нет изменений, т. е. оно равно нулю, когда дельта равна нулю, (ii) обнаружить уже чрезвычайно малую разницу, когда дельта составляет всего 0,05, и (iii) обнаружить, что разница тем больше, чем больше дельта. Опять же, важно помнить об этих значениях: они действительно что-то значат — значение 0,64 будет нижней границей истинного ТВ с высокой вероятностью. В частности, каждое из чисел, большее нуля, означает, что проверка P=Q была отклонена на уровне 5%.

Вывод:

Когда дело доходит до A/B-тестирования (тестирование с двумя выборками), основное внимание часто уделяется статусу отклонения статистического теста. Когда тест отклоняет нулевое распределение, на практике, тем не менее, полезно иметь меру интенсивности различия в распределении. Путем построения высоковероятностных нижних границ общего расстояния вариации мы можем построить нижнюю границу доли наблюдений, которые, как ожидается, будут отличаться, и, таким образом, дать интегрированный ответ на разницу в распределении и интенсивности сдвига. .

отказ от ответственности и ресурсы: мы понимаем, что упустили многие детали (эффективность, конструкция HPLB, исследования мощности и т. д.), но надеемся открыть горизонт для размышлений. M подробности о руде и сравнение с существующими тестами можно найти в нашей бумагеrи проверить R-package HPLB на CRAN.