Мы все любим слушать сказки - сказки с прекрасной моралью.
Сегодня я поделюсь такой историей, которую услышал от одного из моих профессоров Арнаб Чакраборти из Индийского статистического института.
Но эта история немного другая. Это Статистическая история - история с статистической моралью.
Это было время в середине 90-х, статистика становится крутым парнем. В то время некоторые СМИ использовали линейную регрессию и сообщили, что «определенный метод хиромантии» оказался статистически очень значимым.
Или это было?
Итак, перед этим позвольте мне представить метод хиромантии, данные и статистическую перспективу СМИ, лежащую в основе рассказа.
Метод хиромантии:
По мнению хиромантов, чем больше отношение В / А у человека к определенной шкале, тем больше будет продолжительность жизни человека.
Данные:
Возраст 100 погибших и данные их левой руки из горящего гхата. Фрейм данных выглядел следующим образом:
Статистическая перспектива СМИ:
Фактически было обнаружено, что действительно корреляция между соотношением B / A и их продолжительностью жизни составляла 0,99.
Да, вы правильно прочитали: 0,99.
Что ж, тогда СМИ и хироманты были правы! Верно? Бьюсь об заклад, вы чувствуете поворот в истории.
Да, тут есть изюминка!
Отец индийских статистических исследований Прасанта Чандра Махаланобис угадал в этом нечто подозрительное.
Итак, он решил нанести данные на график и получил следующее:
f = rnorm(50, 0.1, 0.01 ) agef = rnorm(50, 70, 1) m = rnorm(50 , 0.5, 0.01) agem = rnorm(50, 75, 1) BdivA = as.vector(rbind(f,m)) age = as.vector(rbind(agef,agem)) plot(BdivA, age) abline(lm (age ~ BdivA)) cor(age, BdivA) = 0.94 cor(agef,f) = -0.097 cor(agem,m) = 0.105
Полученные результаты:
Подозреваемый П.К. Махаланобиса на самом деле был правдой, снимая шляпу перед его статистической интуицией. Посмотрим, где СМИ пошли не так:
- Соотношение B / A для мужчин и женщин на самом деле было разным. У женщин соотношение B / A ниже из-за тонких рук. Таким образом, соотношение B / A и возраст имеют разные кластеры, как показано на диаграмме. Самый левый нижний кластер предназначен для женщин, а самый верхний правый кластер - для мужчин.
- Между каждым кластером корреляция между возрастом и отношением B / A близка к нулю, что показано как cor (agef, f) = -0,097 и cor (agem, m) = 0,105.
- И средний возраст смерти, и соотношение B / A больше у мужчин, чем у женщин. Следовательно, линия регрессии увеличивается.
- Линия регрессии представляет собой своего рода соединение двух точек, поэтому она так близка к 1, очевидно из cor (age, BdivA) = 0,94.
Все эти незнания привели к неправильной интерпретации правильного результата.
Статистические уроки:
- Всегда, если возможно, наносите данные на график, прежде чем выполнять какой-либо статистический анализ.
- Высокий коэффициент корреляции между двумя переменными не означает, что эти две переменные сильно коррелированы.
- Дайте немного пищи своему здравому смыслу.
Спасибо за прочтение.
:)
© SrijitMukherjee2020