Почему Центральная предельная теорема? И почему она считается самой важной теоремой в науке о данных

Вы когда-нибудь задумывались, как модели могут легко сойтись во всех типах наборов данных? Благодаря центральной предельной теореме. Будучи одной из самых важных теорем в науке о данных, никто не признает ее важности. В какой-то момент все существующие алгоритмы машинного обучения используют CLT для обработки этих наборов данных.

Определение:

Центральная предельная теорема утверждает, что выборочное распределение выборочных средних приближается к нормальному распределению по мере увеличения размера выборки — независимо от формы распределения генеральной совокупности. Этот факт особенно актуален для размеров выборки более 30.

Давайте посмотрим на пример, чтобы лучше понять, о чем мы говорим.

Введение

Для правильного понимания CLT необходимо знать нормальное распределение.

В природе все подчиняется некоторому шаблону распределения, то есть рост, возраст, доход, IQ учащихся и т. д.… все следует распределению.

Пример

Учитывайте рост, обычно мужчины примерно от 64 до 78 дюймов. Здесь люди с ростом 64 дюйма и 78 дюймов меньше по сравнению с людьми ростом 7,0 и 7,2 дюйма. Глядя на распределение высоты, можно сделать вывод, что это распределение соответствует нормальному распределению.

Центральная предельная теорема

Предположим, у нас есть задача найти средний балл IQ в Индии в течение следующих 3 месяцев. Но из 1,33 миллиарда населения Индии и за данные 3 месяца можно ли найти средний показатель IQ? Является ли это возможным?

Это возможно с использованием методов выборки. Из данной 1,33 миллиарда популяции случайным образом выберите выборку, которая напоминает общую популяцию, чтобы мы могли найти приблизительный ближайший показатель IQ в данный момент времени. То есть в Индии 29 штатов, рассмотрим 29 выборок, каждая из которых представляет один штат в Индии.

  1. Теперь для каждой выборки S с населением соответствующих штатов из данной совокупности возьмите размер выборки n для опроса (пример: выборка S1 для штата Карнатака с населением около 68 миллионов, учитывая размер выборки n = 1000 человек для опроса в этом штате). Здесь n — константа.
  2. Отметьте все баллы IQ людей из выбранной выборки и возьмите из них средний балл.
  3. Повторите вышеуказанные 2 шага для оставшихся 28 состояний.
  4. Наконец, сложите все средние значения выборки и разделите их на 29.
  5. Среднее значение, полученное с помощью выборочных средних, приблизительно равно среднему населению Индии.

Примечание. По мере увеличения n распределение становится все более и более плавным.

Проблема

Suppose, consider P is the population of students with there IQ score.
given: p=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]
   Iq=[10,20,30,30,50,70,80,90,30,50,70,90,80,40,100,20,60,70,60,70]
Population(mean)= 1120/20 = 56
sample size n=5
=> for sample1(S1) randomly choose a sample size of 5
       S1 = [1,5,10,14,20] and IQ = [10,50,50,40,70]
       S1(mean) = 220/5 = 44

=> for S2 randomly choose sample size of 5
       S2 = [3,7,18,19,8] and IQ = [30,80,70,60,90]
       S2(mean) = 330/5 = 66

now S(mean) = (S1+S2)/2 = (44+66)/2 = 110/2 = 55
    S = 55
proof: S approx equal to P (55 approx 56)

Центральная предельная теорема гласит:

  1. Среднее значение выборочных средних равно среднему для генеральной совокупности.
  2. Если совокупность распределена ненормально, но размер выборки больше 30, то выборочное распределение выборочных средних аппроксимирует нормальное распределение.

Надеюсь, теперь мы поняли важность центральной предельной теоремы для науки о данных:)