Это случай, произошедший в августе 2018 года. Когда я учился в Эмори, получая степень в области аналитики. Большая часть моего курса MSBA была в первые дни построения модели, и мы только что узнали кое-что о том, как сильно коррелированные переменные могут привести к точным, но вводящим в заблуждение результатам. Мой профессор привел нам действительно интересный пример, чтобы довести концепцию до сознания. Вот как это было.

В одно прекрасное утро во время занятий мой профессор статистики восклицает: «Разве это не прекрасное утро? Теплое солнце и яркий свет вокруг!» Все кивнули в знак одобрения. «Но, видите ли, проблема в том, что в Атланте такая погода не круглый год. Зимой может быть очень холодно. На самом деле некоторые зимние утра могут быть холодными до -5 градусов по Цельсию», — добавил он. Для южноиндийца такие погодные условия непостижимы. Мне было интересно, сколько слоев зимней одежды мне придется надеть. Для тех из вас, кому может быть интересно, да, для нас, южноиндийских «первокурсников», одного может быть недостаточно.

Тем не менее, продолжаем наш рассказ. «Я не большой поклонник зимы в Атланте. Я бы хотел, чтобы где-нибудь в центре города был гигантский термостат», — добавил профессор. «На самом деле однажды я был очень близок к тому, чтобы найти решение всех страданий, которые приносит зима. Видите ли, дальше по дороге, рядом с парковочной площадкой, на повороте есть небольшая выбоина, которая старше, чем некоторые люди в этой комнате. За последние 25-30 лет его заполняли не менее 100 раз, и все же каждые несколько месяцев он нуждается в ремонте. И в результате там большую часть времени относительно свежая смола». И я вспомнил, что сам видел эту выбоину. Он был довольно приличного размера, и его было довольно легко заметить.

И профессор продолжил: «Итак, когда вы проезжаете эту выбоину жарким летним днем, часть смолы прилипает к вашим шинам. У меня есть для него название «липкая смола». И всякий раз, когда на моей машине появляется липкая смола, я знаю, что сегодня действительно жаркий день». Бьюсь об заклад, в тот момент большинство моих одноклассников пытались понять, какое отношение этот пример имеет к статистике. Ну, по крайней мере, я был. «Одним слегка холодным утром, — продолжил профессор, — я проехал по выбоине и почувствовал, что смола затвердела. Ну, думаю, лето официально закончилось, сказал я себе», — добавил профессор. «Но потом меня осенило. Что, если я вытащу паяльную лампу и нагрею смолу? Каждый раз, когда на улице жарко, смола становится липкой… так что, если я смогу нагреть смолу и заставить ее растаять, будет ли снова лето?» И все залились смехом.

«Каким бы глупым это ни казалось, именно этим некоторые специалисты по данным и статистики могут заняться в реальном мире. Они сталкиваются с липкой смолой и вводятся в заблуждение

Профессор имеет в виду извечную проблему корреляции и причинности. Чтобы объяснить это далее, рассмотрим липкую смолу. Существует значительная корреляция между температурой в данный день и «липкостью» смолы. Чем выше температура, тем клейче становится смола. Но было бы глупо предполагать обратное. Какой бы горячей или холодной не становилась смола, Она не имеет возможности регулировать температуру окружающей атмосферы.

Но какой бы заметной ни казалась эта ошибка, это одна из самых фатальных ошибок, от которых может пострадать статистическая модель или модель машинного обучения. Итак, если бы я создавал модель для прогнозирования температуры в определенный день, а «липкость смолы» — это одна из переменных, которую я включаю в свои предикторы, то высокая степень корреляции, которую имеет этот предиктор, заставила бы мою модель присвоить этому больший вес. предсказатель. Проще говоря, моя модель научилась бы соотносить «липкость смолы» со средней температурой любого дня. И потому логично предположить, что в жаркий день смола будет более липкой. точность моей модели также будет очень высокой в ​​большинстве случаев, и эта фатальная ошибка может ускользнуть из-под носа нашего ничего не подозревающего специалиста по данным.

И если однажды строитель найдет постоянное решение, чтобы заделать выбоину, и теперь она будет такой же ровной и прочной, как и любой другой участок дороги, то в тот день, даже если на улице жара 95 градусов, моя модель подумает, что это Снова декабрь. А если зимой был ремонт и свежий гудрон проложен? В таком сценарии моя модель ошибочно приняла бы морозное зимнее утро за жаркий летний полдень.

Классический случай корреляции, неправильно истолкованной как подразумевающая причинно-следственную связь. Вот почему бизнес-знание проблемы, которую вы пытаетесь решить, очень важно

Крайне важно, чтобы каждая переменная была тщательно проверена перед включением в модель. Чтобы увидеть, насколько обманчивыми могут быть корреляции, ознакомьтесь с этими интересными диаграммами, полученными из этого удивительного блога.

Вот еще один

Если ты все еще здесь, я рад узнать, что не усыпил тебя. Я надеюсь, что вы нашли статью интересной. Пожалуйста, оставьте комментарий ниже. Я хотел бы знать ваши мысли. Также продолжайте и поделитесь статьей в своей сети. Кто знает, чей день липкая смола может когда-нибудь спасти.