Всякий раз, когда ваш любимый дискуссионный онлайн-форум спрашивает о лучшем, самом чистом, самом недооцененном или другом превосходном результате в математике, вы можете быть уверены, что Центральная предельная теорема статистики будет в верхней части списка. Даже само название подчеркивает ее статус: Центральная указывает на ее важность среди предельных теорем, а не на то, что это теорема о центральных пределах (хотя это также в некоторой степени точно). Это основной элемент первых курсов по статистике, и студенты часто совершенно справедливо не понимают, что это значит: отчасти это связано с тем, что Центральная предельная теорема не говорит того, что хотят сказать учебники по статистике!

В этой статье объясняется, почему популярная концепция центральной предельной теоремы неверна и что сама теорема плоха. Прежде чем объяснять это, давайте рассмотрим, что такое центральная предельная теорема .

В диком мире статистики фундаментальным объектом является случайная величина: объект, который может принимать различные значения (в отличие от стандартной переменной, которая, как предполагается, имеет единственное, четко определенное значение), представьте себе бросок игральной кости. Если вы верите в существование некоторого алеаторического «пространства событий», случайная величина — это функция от этого пространства событий к (обычно) действительным числам. Распределение вероятностей описывает значения, которые может принимать случайная величина, и существует множество различных распределений вероятностей. Хотя есть несколько примеров случайных величин, с которыми особенно плохо играть, в этой статье мы предполагаем, что все они обладают некоторой долей вежливости. За последние несколько столетий математики определили определенные распределения, представляющие особый интерес, и разработали специальные инструменты, помогающие в их анализе.

Пожалуй, наиболее хорошо изученным распределением является нормальное распределение. Математики написали таблицы значений и разработали аппроксимации важных свойств распределения, и когда людям нужно выбрать случайное число, они часто выбирают его из нормального распределения. Конечно, в соответствии с Законом о том, что у нас не может быть ничего хорошего, случайные величины в дикой природе редко имеют нормальное распределение.

С другой стороны, возможно, наиболее часто используемым свойством случайной величины является ее среднее, ее среднее значение. Обычно мы не знаем, каково его истинное (или население) значение, но мы можем оценить его, просто взяв среднее значение выборок, которые мы видели до сих пор — это называется выборочное среднее.

Выборочное среднее — это просто еще одно число, значение которого зависит от случайных величин, которые мы видели, и поэтому само по себе является случайной величиной. Поскольку нашей целью было оценить среднее значение генеральной совокупности, возникает естественный вопрос: каково распределение этой случайной величины и, в частности, насколько вероятно, что среднее значение выборки близко к среднему значению генеральной совокупности?

Хотя это хороший вопрос, Центральная предельная теорема не дает на него ответа. Вот что говорит Центральная предельная теорема:

Существует нормальное распределение, такое что при некотором допуске ε существует размер выборки N такой, что для любого числа t вероятность того, что √N умноженное на среднее значение выборки (из N выборок), больше, чем t находится в пределах ε от вероятности того, что исходное нормальное распределение принимает значение больше, чем t.

Я хочу выделить две наиболее важные части теоремы: существует и внутри ε. Но прежде чем я это сделаю, давайте отвлечемся и поговорим о так называемой центральной предельной теореме для сумм.

Использование центральной предельной теоремы для сумм особенно вопиющее. Чтобы понять почему, давайте заглянем под капот стандартного доказательства центральной предельной теоремы. Для любой случайной величины мы можем рассмотреть последовательность ожидаемых значений: 𝔼[X], 𝔼[X²], 𝔼[X³] и так далее. Эти значения называются моментами случайной величины, и при определенных обстоятельствах бесконечная последовательность моментов однозначно определяет случайную величину. Одним из таких случаев является нормальное распределение: если каждый нечетный момент случайной величины равен нулю, а каждый четный момент удовлетворяет определенному шаблону, то эта случайная величина должна нормально распределяться.

Доказательство центральной предельной теоремы показывает, что нечетные моменты в √N, умноженные на разницу между средними значениями выборки и совокупности — то, что я для краткости буду называть «центральным пределом», — имеют порядок 1/√N. Эта величина стремится к нулю при увеличении N , поэтому центральная предельная теорема верна. Нечетные моменты суммы, которые в √N раз больше, нестремятся к нулю. Без дополнительного контроля √N распределение выборочных сумм может иметь моментное поведение, которое сильно отличается от поведения нормального распределения.

Что касается того, почему центральная предельная теорема плохая, давайте вернемся к тому, что существует в формулировке теоремы. Центральная предельная теорема сама по себе абсолютно ничего не говорит о том, сколько выборок необходимо для получения результатов. Доказательство дает нам некоторый намек: распределение центрального предела приближается к нормальному распределению со скоростью около 1/√N. На самом деле существует неасимптотическая версия центральной предельной теоремы, теорема Берри-Эссеена, которая утверждает, что (с некоторыми дополнительными предположениями) значение ε — оценка разности в вероятностях - действительно можно принять примерно равным 1/√N. Однако, несмотря на то, что скорость сходимости 1/√N оптимальна для этой задачи, она очень-очень медленная.

Давайте задумаемся об этом на мгновение. Классическое эмпирическое правило заключается в том, что Центральная предельная теорема срабатывает после некоторого количества выборок, например 30. Для справки, 1/√30 составляет около 0,18, но Центральная предельная теорема надеется, что это число близко к нулю. ! Хотя я, конечно, видел и большие числа, чем 0,18, назвать это нулем довольно сложно. То, что так много академических и профессиональных источников представляет это эмпирическое правило как математический факт, откровенно смущает.

Давайте вернемся к вопросу, на который мы хотим ответить о выборочных средних: если среднее значение совокупности равно, скажем, 10, насколько мы уверены, что выборочное среднее по 30 выборкам не будет больше 10,5? Это вычисляется путем рассмотрения нормального распределения с дисперсией σ² / 30; если σ=1, то вероятность того, что эта нормальная случайная величина больше 10,5, составляет около 0,3%. Затем центральная предельная теорема говорит нам, что наша выборочная средняя ошибка не превышает ε плюс некоторое значение ε: по Берри-Эссину, в этом случае коэффициент подтасовки составляет порядка 8,7% (чуть меньше половины 1/√30). ), всего 9%. Это аддитивная ошибка: в соответствии с центральной предельной теоремой мы никогда не можем снизить наши шансы ошибиться на какую-либо величину ниже 8,7%.

Другими словами, поскольку у нас есть только аддитивный контроль над распределениями, наши попытки ответить на наш первоначальный вопрос «насколько вероятно, что среднее значение выборки близко к среднему для генеральной совокупности» с помощью центральной предельной теоремы совершенно напрасно. Наша уверенность в том, что выборочное среднее не превышает 10,5, практически совпадает с нашей уверенностью в том, что оно не превышает 50! У нас просто нет хвостового управления из-за аддитивного характера центральной предельной теоремы.

Однако это немного странно, потому что люди годами без проблем цитируют Центральную предельную теорему. Оказывается, то, что мы хотим, почти так и есть, но оно носит другое (и менее эффектное) название: Неравенство Хёффдинга.

Если мы вернемся назад к тому, для чего нам нужна была Центральная предельная теорема, то обычно она заключалась в том, чтобы вычислить, насколько вероятно, что среднее значение выборки было близко к среднему значению генеральной совокупности. Вот что прямо говорит нам неравенство Хёффдинга:

Существует некоторое число c, так что вероятность того, что разница между средними значениями выборки и генеральной совокупности больше некоторого значения t, не превышает exp(-cNt²).

Недостатком здесь является то, что значение с, как правило, нам неизвестно, однако 0,5, деленное на дисперсию, является разумной оценкой — это правильное значение для бернуллиевской случайной величины, т. е. такой, которая принимает ровно два значения, и должно быть примерно правильно для многих реальных дистрибутивов. Следует также отметить, что, хотя неравенство Хеффдинга обычно представляется справедливым только для ограниченных случайных величин, форма, которую я здесь привел, справедлива для гораздо более широкого класса переменных, называемых субгауссовыми случайные величины. Аналогичные результаты справедливы и для переменных, не являющихся субгауссовыми, таких как неравенство Бернштейна.

Эта оценка несет в себе дух того, что мы хотели получить от Центральной предельной теоремы: общая форма выглядит как функция плотности нормального распределения с дисперсией σ²/N, что очень похоже на то, что дало бы ошибочное использование Центральной предельной теоремы. Здесь также нет добавочного провисания; вместо этого неравенство Хёффдинга делает оценку c слабой, что означает отсутствие доверительного интервала! В предыдущей задаче со средним значением генеральной совокупности, равным 10, граница Хёффдинга для вероятности того, что среднее значение выборки превысит 10,5, составляет 2,4%, что намного точнее, чем 9% строгой центральной предельной теоремы, и эмпирически подтверждается лучше, чем 0,3% из наивное использование, поскольку, согласно моим экспериментам с несколькими распределениями, истинная вероятность, безусловно, может превышать 0,3% (например, свернутое нормальное распределение составляет около 0,5%). Неравенство Хёффдинга верно и для сумм, в отличие от центральной предельной теоремы.

Однако то, что это так похоже на то, что мы изучаем на уроках статистики, не должно удивлять. Эмпирически нормальная аппроксимация распределения выборочных средних работала довольно хорошо на протяжении многих лет. Но это всего лишь эмпирическое правило, а не теорема. Центральная предельная теорема плоха. Пожалуйста, перестаньте так называть этот полезный трюк.