В этой статье мы будем обсуждать доверительный интервал, и мы поймем его интуицию и то, как мы можем использовать его для вывода статистического анализа населения.

Во-первых, мы можем пройтись по основным терминам, которые мы будем использовать для понимания доверительного интервала.

Население против выборки

Население. Население – это целая группа или набор лиц, объектов или событий, которые исследователь хочет изучить или сделать выводы. Это могут быть люди, животные, растения или даже неодушевленные предметы, в зависимости от контекста исследования. Население обычно представляет собой полный набор возможных точек данных или наблюдений.

Выборка. Выборка — это подмножество совокупности, отобранной для исследования. Это меньшая группа, которая призвана представлять большую часть населения. Исследователи собирают данные из выборки и используют их, чтобы делать выводы о населении в целом. Поскольку часто нецелесообразно или невозможно собирать данные о каждом члене населения, выборки используются как эффективный и экономичный способ сбора информации.

Параметр против оценки

Параметр. Параметр – это числовое значение, описывающее характеристику совокупности. Параметры обычно обозначаются греческими буквами, например μ (мю) для среднего значения совокупности или σ (сигма) для стандартного отклонения совокупности. Поскольку часто трудно или невозможно получить данные по всей популяции, параметры обычно неизвестны и должны оцениваться на основе имеющихся выборочных данных.

Статистика. Статистика — это числовое значение, описывающее характеристику выборки, являющейся подмножеством генеральной совокупности. Используя статистику, рассчитанную по репрезентативной выборке, исследователи могут делать выводы о неизвестном соответствующем параметре населения. Общие статистические данные включают выборочное среднее (обозначаемое как «x-bar»), выборочное медианное значение и выборочное стандартное отклонение (обозначаемое как s).

Оценка баллов

Точечная оценка – это отдельное значение, которое используется для оценки неизвестного параметра совокупности на основе выборки из этой совокупности. Он обеспечивает оценку «наиболее вероятного» значения параметра, но не учитывает неопределенность, связанную с оценкой параметра генеральной совокупности по ограниченной выборке.

Вот пример, иллюстрирующий концепцию точечной оценки:

Допустим, вы хотите оценить средний рост взрослых людей в определенном городе. Интересующим параметром населения является истинный средний рост всех взрослых жителей города, который неизвестен. Было бы нецелесообразно или невозможно измерить рост каждого взрослого в городе, поэтому вы решаете взять случайную выборку из 100 взрослых и измерить их рост.

После сбора данных и расчета среднего роста 100 отобранных взрослых вы получаете точечную оценку 5 футов 7 дюймов (170 см) в качестве среднего роста выборки. Это означает, что на основе вашей выборки вы оцениваете, что средний рост взрослых в городе составляет 5 футов 7 дюймов.

Однако важно отметить, что эта точечная оценка подвержена неопределенности, поскольку она основана на ограниченной выборке, а не на всей совокупности. Различные выборки могут давать немного разные оценки. Чтобы учесть эту неопределенность, статистики часто используют доверительные интервалы.

Предположим, мы берем 100 выбранных взрослых 50 раз, и каждый раз, когда мы вычисляем среднее значение для каждого включенного в выборку взрослого, мы будем получать 50 выбранных средних, и если мы вычислим среднее из этих 50 выбранных средних, мы сможем получить более точное среднее значение генеральной совокупности. Но все же эта точечная оценка подвержена неопределенности, поскольку она основана на ограниченной выборке, а не на всей совокупности.

Доверительный интервал — это диапазон значений, который может содержать истинный параметр генеральной совокупности с определенным уровнем достоверности. Например, вы можете рассчитать 95% доверительный интервал для среднего роста взрослых жителей города как от 5 футов 6 дюймов до 5 футов 8 дюймов (от 168 см до 173 см). Это означает, что вы на 95% уверены, что истинный параметр популяции попадает в этот интервал. Точечная оценка (5 футов 7 дюймов) является лишь одним из возможных значений в пределах этого доверительного интервала.

Таким образом, точечная оценка — это отдельное значение, которое используется для оценки неизвестного параметра генеральной совокупности на основе выборки, но не учитывает неопределенность, связанную с оценкой параметра по ограниченной выборке. Доверительные интервалы обеспечивают диапазон значений, учитывающих эту неопределенность, что позволяет более точно оценить параметр генеральной совокупности.

Доверительный интервал

Давайте рассмотрим пример из реальной жизни, чтобы проиллюстрировать концепцию доверительного интервала.

Предположим, исследователь рынка заинтересован в оценке среднего дохода домохозяйств в определенном районе. Исследователь собирает случайную выборку из 200 домохозяйств в этом районе и получает данные об их доходах. Средний доход выборки рассчитывается равным 60 000 долларов США, а стандартное отклонение доходов в выборке составляет 10 000 долларов США.

Исследователь хочет дать оценку среднего дохода для всех домохозяйств по соседству, но признает, что среднее значение выборки в размере 60 000 долларов США может быть подвержено изменчивости выборки и может не точно отражать истинное среднее значение для населения. Вот здесь и появляется доверительный интервал.

Исследователь решает рассчитать 95% доверительный интервал для среднего дохода. Доверительный интервал 95 % означает, что если исследователь повторит процесс выборки несколько раз и вычислит доверительные интервалы, 95 % этих интервалов будут содержать истинное среднее значение генеральной совокупности.

Используя статистические формулы, исследователь рассчитывает доверительный интервал следующим образом:

Среднее значение выборки = 60 000 долларов Стандартное отклонение выборки = 10 000 долларов Размер выборки = 200 Уровень достоверности = 95 %

Подставив эти значения в статистический калькулятор или программное обеспечение, исследователь получает доверительный интервал от 58 000 до 62 000 долларов.

Это означает, что исследователь на 95% уверен, что истинный средний доход всех домохозяйств по соседству находится в диапазоне от 58 000 до 62 000 долларов. Точечная оценка в 60 000 долларов — это лишь одно из возможных значений в пределах этого доверительного интервала.

Исследователь может интерпретировать результаты следующим образом: «На основе нашей выборки мы с вероятностью 95% оцениваем, что средний доход всех домохозяйств по соседству составляет от 58 000 до 62 000 долларов».

Таким образом, доверительный интервал обеспечивает диапазон значений, в пределах которого, вероятно, находится истинный параметр совокупности с определенным уровнем достоверности, и помогает учитывать неопределенность, связанную с оценкой параметров совокупности по ограниченным выборкам.

Уровень достоверности, обычно выражаемый в процентах, например 95%, показывает, насколько мы уверены в том, что истинное значение находится в пределах интервала.

Доверительный интервал с использованием Z-процедуры

Есть определенные предположения, которые нам необходимо проверить перед построением доверительного интервала с использованием Z-процедуры.

Предположения

  1. Случайная выборка: данные должны быть собраны с использованием метода случайной выборки, чтобы обеспечить репрезентативность выборки для населения. Это помогает свести к минимуму систематические ошибки и гарантирует, что результаты могут быть распространены на всю популяцию.
  2. Известное стандартное отклонение генеральной совокупности. Стандартное отклонение генеральной совокупности (σ) должно быть известно или точно рассчитано. На практике стандартное отклонение генеральной совокупности часто неизвестно, и в качестве оценки используется стандартное отклонение выборки. Однако, если размер выборки достаточно велик, стандартное отклонение выборки может обеспечить достаточно точную аппроксимацию.
  3. Нормальное распределение или большой размер выборки. Z-процедура предполагает, что базовая совокупность имеет нормальное распределение. Однако, если распределение населения не является нормальным, можно применить центральную предельную теорему, когда размер выборки велик (обычно размер выборки n ≥ 30 считается достаточно большим). Согласно центральной предельной теореме, выборочное распределение выборочного среднего будет приближаться к нормальному распределению по мере увеличения размера выборки, независимо от формы распределения генеральной совокупности.

Формула построения доверительного интервала с использованием z-процедуры для среднего значения совокупности выглядит следующим образом:

Доверительный интервал = X ± (Z * (σ / √n))

Где:

  • X - выборочное среднее
  • Z — критическое значение стандартного нормального распределения, соответствующее желаемому доверительному уровню.
  • σ - стандартное отклонение совокупности (если известно)
  • n - размер выборки

В этой формуле X представляет статистику выборки (среднее значение выборки), Z представляет собой критическое значение стандартного нормального распределения, σ представляет собой стандартное отклонение совокупности (если известно), а n представляет размер выборки. Доверительный интервал строится путем взятия выборочного среднего и добавления и вычитания предела погрешности, который определяется путем умножения критического значения (Z) на стандартную ошибку выборочного среднего (σ / √n).

Мой личный пример:

Если у меня 50 000 подписчиков на YouTube, и если я хочу предсказать среднее значение этих 50 000 подписчиков, которое неизвестно, предположим, S, тогда, очевидно, невозможно указать точное среднее число моих подписчиков, но я Я могу провести 10 живых занятий, в которых участвуют 100 человек, и рассчитать среднее значение этих 100 подписчиков в каждом живом занятии, а затем я могу рассчитать среднее значение этих выборок, что означает, что я получу среднее значение 10 выборочных средних. , который предположительно X.

Затем я могу построить доверительный уровень 95 %, используя Z-процедуру, в которой я использую свое выборочное среднее X.

Утверждение о том, что существует 95% вероятность того, что среднее значение совокупности S будет лежать между доверительным интервалом неверно.

Поскольку значение S будет фиксированным и не изменится, мы пытаемся предсказать S, используя наше выборочное среднее X.

Таким образом, мы можем сказать, что всякий раз, когда мы пытаемся вычислить средние значения генеральной совокупности S с использованием доверительного интервала, мы получим среднее значение генеральной совокупности S в нашем доверительном интервале с достоверностью 95 %.

Пример

Вот пример построения доверительного интервала с использованием z-процедуры с известным средним значением выборки в правильном формате:

Вопрос: Как построить 95-процентный доверительный интервал для среднего значения генеральной совокупности (μ) со средним значением выборки (X), равным 70, известным стандартным отклонением генеральной совокупности (σ), равным 10, и размер выборки (n) из 50 с использованием z-процедуры?

Решение:

Дано: Среднее значение выборки (X) = 70 Стандартное отклонение совокупности (σ) = 10 Размер выборки (n) = 50 Уровень достоверности = 95%

Доверительный интервал = X ± (Z * (σ / √n))

Шаг 1. Определите интересующий параметр и соберите данные. Интересующим параметром является среднее значение генеральной совокупности (μ), и у нас есть выборочное среднее значение (X), равное 70, известное стандартное отклонение генеральной совокупности (σ). 10 и размер выборки (n) 50.

Шаг 2. Определите желаемый уровень достоверности. Желаемый уровень достоверности составляет 95 %, что соответствует Z-показателю 1,96 для стандартного нормального распределения.

Шаг 3. Вычислите стандартную ошибку. Вычислите стандартную ошибку (SE) среднего значения выборки по формуле: SE = σ / √n, где σ – известное стандартное отклонение генеральной совокупности, а n – размер выборки. .

SE = 10 / √50 ≈ 1.414

Шаг 4. Рассчитайте предел погрешности Рассчитайте предел погрешности (ME), умножив стандартную ошибку на Z-оценку для желаемого уровня достоверности.

ME = 1.96 * 1.414 ≈ 2.77

Шаг 5. Построение доверительного интервала Поскольку известно, что среднее значение выборки (X) равно 70, мы можем просто добавить и вычесть погрешность (ME), чтобы получить доверительный интервал.

Доверительный интервал = X ± ME Доверительный интервал = 70 ± 2,77

Мы можем построить 95% доверительный интервал для среднего значения генеральной совокупности (μ) на основе заданного среднего значения выборки (X), равного 70, известного стандартного отклонения совокупности (σ), равного 10, и размера выборки (n), равного 50, используя z -процедура. Доверительный интервал равен (67,23, 72,77), что означает, что мы можем быть на 95 % уверены, что истинное среднее значение населения попадает в этот интервал.

Доверительный интервал для чайников

Предположим, у меня 100 тыс. подписчиков, и если я извлекаю выборку из 50 человек 100 раз и каждый раз вычисляю среднее значение этой выборки, то в соответствии с 95% доверительным интервалом по крайней мере 95-кратное среднее значение выборки будет иметь тенденцию лежать в диапазоне доверительного интервала.

Интерпретация доверительного интервала

Чтобы интерпретировать значения доверительного интервала, рассмотрите следующие моменты:

  1. Уровень достоверности: уровень достоверности (обычно устанавливается на уровне 90 %, 95 % или 99 %) представляет собой вероятность того, что доверительный интервал будет содержать истинный параметр генеральной совокупности, если процесс выборки и оценки повторялся несколько раз. . Например, доверительный интервал 95 % означает, что если вы возьмете 100 различных выборок из совокупности и рассчитаете доверительный интервал для каждой из них, примерно 95 из этих интервалов будут содержать истинный параметр совокупности.
  2. Интервал. Ширина доверительного интервала указывает на точность оценки. Более узкий доверительный интервал предполагает более точную оценку параметра совокупности, тогда как более широкий интервал указывает на большую неопределенность. Ширина интервала зависит от размера выборки, изменчивости данных и желаемого уровня достоверности.
  3. Интерпретация. Чтобы интерпретировать значения доверительного интервала, вы можете сказать, что вы «уверены на X% в том, что истинный параметр совокупности находится в диапазоне (нижний предел, верхний предел)». Имейте в виду, что это утверждение относится к интервалу, а не к конкретной точечной оценке, и относится к уровню достоверности, который вы выбрали при построении интервала.

Помните, чем больше доверительный интервал, тем больше диапазон значений. Например, я могу сказать, что Дхони может забить свои иннинги между 0 и 200 ранами со 100% уверенностью, и я также могу сказать, что я на 10% уверен, что Дхони забьет раны между 40 и 43 ранами, или я на 1% уверен, что Дхони забьет 25 пробежек.

Мы видим, что по мере уменьшения диапазона доверительного интервала уменьшается и уровень достоверности.

Мы можем визуализировать доверительный интервал с помощью инструмента, предположим, что мы проводим симуляционное исследование с размером выборки 50, выполняем 100 симуляций, а среднее значение генеральной совокупности составляет 50. Нас интересует вычисление 95% доверительного интервала.

Это означает, что в 95 случаях из 100 диапазон будет содержать среднее значение нашей совокупности в соответствии с доверительным интервалом 95%.

Как дисперсия может повлиять на доверительный интервал?

Большая дисперсия указывает на то, что точки данных более разбросаны, а выборочные оценки могут быть менее точными. Это может привести к более широкому доверительному интервалу, поскольку неопределенность или изменчивость данных приводит к большему диапазону возможных значений параметра истинной совокупности. И наоборот, меньшая дисперсия указывает на то, что точки данных более тесно сгруппированы вокруг выборочной оценки, что приводит к более узкому доверительному интервалу.

Давайте возьмем пример, чтобы проиллюстрировать это:

Предположим, вы проводите исследование для оценки средней высоты (параметр популяции) определенного вида деревьев в лесу. Вы собираете образец из 100 деревьев и измеряете их высоту. Средняя высота выборки составляет 65 дюймов, а дисперсия выборки — 25 квадратных дюймов.

Теперь вы хотите рассчитать 95% доверительный интервал для истинной средней высоты деревьев в популяции, используя выборочные данные.

Если выборочная дисперсия равна 25, то стандартное отклонение (σ) равно квадратному корню из 25, что равно 5. Подставляем значения в формулу для доверительного интервала:

Доверительный интервал = выборочное среднее ± (Z-оценка * (σ / √n))

где: Среднее значение выборки = 65 (данные) Z-показатель (для уровня достоверности 95%) = 1,96 (из Z-таблицы) σ = 5 (рассчитано на основе дисперсии выборки) n = 100 (размер выборки)

Доверительный интервал = 65 ± (1,96 * (5/√100))

Вычисляя доверительный интервал, получаем:

Доверительный интервал = 65 ± (1,96 * 0,5)

Доверительный интервал = (64,02, 65,98)

Таким образом, 95% доверительный интервал для истинной средней высоты деревьев составляет (64,02 дюйма, 65,98 дюйма). Если бы дисперсия была больше, например, если бы выборочная дисперсия равнялась 100, доверительный интервал был бы шире, что указывает на большую неопределенность в оценке среднего роста населения. С другой стороны, если бы дисперсия была меньше, например, если дисперсия выборки равнялась 10, доверительный интервал был бы уже, что указывает на более точную оценку среднего роста населения.

Доверительный интервал с использованием T-процедуры

Мы можем построить наш доверительный интервал, используя T-процедуру, когда стандартное отклонение неизвестно.

  1. Случайная выборка: данные должны быть собраны с использованием метода случайной выборки, чтобы обеспечить репрезентативность выборки для населения. Это помогает свести к минимуму систематические ошибки и гарантирует, что результаты могут быть распространены на всю популяцию.
  2. Стандартное отклонение выборки: стандартное отклонение совокупности (σ) неизвестно, и стандартное отклонение выборки (s) используется в качестве оценки. Стьюдентное распределение специально разработано для учета дополнительной неопределенности, вызванной использованием стандартного отклонения выборки вместо стандартного отклонения генеральной совокупности.
  3. Приблизительно нормальное распределение: t-процедура предполагает, что базовая совокупность приблизительно нормально распределена или размер выборки достаточно велик для применения центральной предельной теоремы. Если распределение населения сильно асимметрично или имеет экстремальные выбросы, t-процедура может быть неточной, и следует рассмотреть непараметрические методы.
  4. Независимые наблюдения. Наблюдения в выборке должны быть независимыми друг от друга. Другими словами, значение одного наблюдения не должно влиять на значение другого наблюдения. Это особенно важно при работе с данными временных рядов или данными с неотъемлемыми зависимостями.

Чтобы построить доверительный интервал с помощью t-процедуры, выполните следующие действия:

Шаг 1. Соберите и обобщите данные. Получите случайную выборку из интересующей совокупности и рассчитайте среднее значение выборки (x̄) и стандартное отклонение выборки (s) по данным.

Шаг 2. Выберите уровень достоверности. Определите желаемый уровень достоверности для вашего интервала, обычно выражаемый в процентах. Обычно выбирают уровни достоверности 90%, 95% или 99%.

Шаг 3. Определите размер выборки. Обратите внимание на размер выборки (n) ваших данных, так как он будет использоваться в t-процедуре.

Шаг 4. Найдите подходящее критическое значение. Найдите критическое значение (t-показатель) в таблице t-распределения или используйте калькулятор t-распределения на основе выбранного уровня достоверности и размера выборки ( степени свободы).

Шаг 5. Рассчитайте предел погрешности. Умножьте критическое значение на стандартную ошибку (SE) среднего значения выборки, которая рассчитывается как s / √n, где s – стандартное отклонение выборки, а √ n — квадратный корень из размера выборки.

Погрешность = t-оценка * (с / √n)

Шаг 6. Построение доверительного интервала. Используя среднее значение выборки (x̄) и предел погрешности, рассчитанный на шаге 5, постройте доверительный интервал, добавляя и вычитая предел погрешности из среднего значения выборки.

Доверительный интервал = x̄ ± допустимая погрешность

Результирующий интервал будет оценкой доверительного интервала для истинного параметра совокупности (например, среднего значения совокупности) с выбранным уровнем достоверности.

Интерпретация доверительного интервала. Доверительный интервал представляет собой диапазон значений, в пределах которого с определенной долей вероятности может находиться истинный параметр генеральной совокупности. Например, если вы построили 95% доверительный интервал для среднего значения генеральной совокупности с помощью t-процедуры, вы можете интерпретировать его следующим образом: «Мы на 95 % уверены, что истинное среднее значение генеральной совокупности находится в пределах рассчитанного доверительного интервала». Это означает, что если бы вы повторили выборку и построили таким образом доверительные интервалы для многих выборок, 95% этих интервалов содержали бы истинное среднее значение генеральной совокупности.