Мы все любим слушать сказки - сказки с прекрасной моралью.

Сегодня я поделюсь такой историей, которую услышал от одного из моих профессоров Арнаб Чакраборти из Индийского статистического института.

Но эта история немного другая. Это Статистическая история - история с статистической моралью.

Это было время в середине 90-х, статистика становится крутым парнем. В то время некоторые СМИ использовали линейную регрессию и сообщили, что «определенный метод хиромантии» оказался статистически очень значимым.

Или это было?

Итак, перед этим позвольте мне представить метод хиромантии, данные и статистическую перспективу СМИ, лежащую в основе рассказа.

Метод хиромантии:

По мнению хиромантов, чем больше отношение В / А у человека к определенной шкале, тем больше будет продолжительность жизни человека.

Данные:

Возраст 100 погибших и данные их левой руки из горящего гхата. Фрейм данных выглядел следующим образом:

Статистическая перспектива СМИ:

Фактически было обнаружено, что действительно корреляция между соотношением B / A и их продолжительностью жизни составляла 0,99.

Да, вы правильно прочитали: 0,99.

Что ж, тогда СМИ и хироманты были правы! Верно? Бьюсь об заклад, вы чувствуете поворот в истории.

Да, тут есть изюминка!

Отец индийских статистических исследований Прасанта Чандра Махаланобис угадал в этом нечто подозрительное.

Итак, он решил нанести данные на график и получил следующее:

f = rnorm(50, 0.1, 0.01 )
agef = rnorm(50, 70, 1)
m = rnorm(50 , 0.5, 0.01)
agem = rnorm(50, 75, 1)
BdivA = as.vector(rbind(f,m))
age = as.vector(rbind(agef,agem))
plot(BdivA, age)
abline(lm (age ~ BdivA))
cor(age, BdivA) = 0.94
cor(agef,f) = -0.097
cor(agem,m) =  0.105

Полученные результаты:

Подозреваемый П.К. Махаланобиса на самом деле был правдой, снимая шляпу перед его статистической интуицией. Посмотрим, где СМИ пошли не так:

  • Соотношение B / A для мужчин и женщин на самом деле было разным. У женщин соотношение B / A ниже из-за тонких рук. Таким образом, соотношение B / A и возраст имеют разные кластеры, как показано на диаграмме. Самый левый нижний кластер предназначен для женщин, а самый верхний правый кластер - для мужчин.
  • Между каждым кластером корреляция между возрастом и отношением B / A близка к нулю, что показано как cor (agef, f) = -0,097 и cor (agem, m) = 0,105.
  • И средний возраст смерти, и соотношение B / A больше у мужчин, чем у женщин. Следовательно, линия регрессии увеличивается.
  • Линия регрессии представляет собой своего рода соединение двух точек, поэтому она так близка к 1, очевидно из cor (age, BdivA) = 0,94.

Все эти незнания привели к неправильной интерпретации правильного результата.

Статистические уроки:

  1. Всегда, если возможно, наносите данные на график, прежде чем выполнять какой-либо статистический анализ.
  2. Высокий коэффициент корреляции между двумя переменными не означает, что эти две переменные сильно коррелированы.
  3. Дайте немного пищи своему здравому смыслу.

Спасибо за прочтение.

:)

© SrijitMukherjee2020