Почему Центральная предельная теорема? И почему она считается самой важной теоремой в науке о данных
Вы когда-нибудь задумывались, как модели могут легко сойтись во всех типах наборов данных? Благодаря центральной предельной теореме. Будучи одной из самых важных теорем в науке о данных, никто не признает ее важности. В какой-то момент все существующие алгоритмы машинного обучения используют CLT для обработки этих наборов данных.
Определение:
Центральная предельная теорема утверждает, что выборочное распределение выборочных средних приближается к нормальному распределению по мере увеличения размера выборки — независимо от формы распределения генеральной совокупности. Этот факт особенно актуален для размеров выборки более 30.
Давайте посмотрим на пример, чтобы лучше понять, о чем мы говорим.
Введение
Для правильного понимания CLT необходимо знать нормальное распределение.
В природе все подчиняется некоторому шаблону распределения, то есть рост, возраст, доход, IQ учащихся и т. д.… все следует распределению.
Пример
Учитывайте рост, обычно мужчины примерно от 64 до 78 дюймов. Здесь люди с ростом 64 дюйма и 78 дюймов меньше по сравнению с людьми ростом 7,0 и 7,2 дюйма. Глядя на распределение высоты, можно сделать вывод, что это распределение соответствует нормальному распределению.
Центральная предельная теорема
Предположим, у нас есть задача найти средний балл IQ в Индии в течение следующих 3 месяцев. Но из 1,33 миллиарда населения Индии и за данные 3 месяца можно ли найти средний показатель IQ? Является ли это возможным?
Это возможно с использованием методов выборки. Из данной 1,33 миллиарда популяции случайным образом выберите выборку, которая напоминает общую популяцию, чтобы мы могли найти приблизительный ближайший показатель IQ в данный момент времени. То есть в Индии 29 штатов, рассмотрим 29 выборок, каждая из которых представляет один штат в Индии.
- Теперь для каждой выборки S с населением соответствующих штатов из данной совокупности возьмите размер выборки n для опроса (пример: выборка S1 для штата Карнатака с населением около 68 миллионов, учитывая размер выборки n = 1000 человек для опроса в этом штате). Здесь n — константа.
- Отметьте все баллы IQ людей из выбранной выборки и возьмите из них средний балл.
- Повторите вышеуказанные 2 шага для оставшихся 28 состояний.
- Наконец, сложите все средние значения выборки и разделите их на 29.
- Среднее значение, полученное с помощью выборочных средних, приблизительно равно среднему населению Индии.
Примечание. По мере увеличения n распределение становится все более и более плавным.
Проблема
Suppose, consider P is the population of students with there IQ score. given: p=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20] Iq=[10,20,30,30,50,70,80,90,30,50,70,90,80,40,100,20,60,70,60,70] Population(mean)= 1120/20 = 56 sample size n=5 => for sample1(S1) randomly choose a sample size of 5 S1 = [1,5,10,14,20] and IQ = [10,50,50,40,70] S1(mean) = 220/5 = 44 => for S2 randomly choose sample size of 5 S2 = [3,7,18,19,8] and IQ = [30,80,70,60,90] S2(mean) = 330/5 = 66 now S(mean) = (S1+S2)/2 = (44+66)/2 = 110/2 = 55 S = 55 proof: S approx equal to P (55 approx 56)
Центральная предельная теорема гласит:
- Среднее значение выборочных средних равно среднему для генеральной совокупности.
- Если совокупность распределена ненормально, но размер выборки больше 30, то выборочное распределение выборочных средних аппроксимирует нормальное распределение.
Надеюсь, теперь мы поняли важность центральной предельной теоремы для науки о данных:)