Наиболее заметным результатом цифровой революции является огромное количество собираемых и анализируемых данных. Однако идти в ногу с сегодняшним экспоненциальным темпом создания данных — непростая задача, поэтому мы сосредоточены на разработке интеллектуальных машин и моделей, которые сделают часть работы за нас.

Эти модели машинного обучения могут хорошо обобщать будущие данные, но они предполагают предположения и требуют вдумчивого рассмотрения имеющихся данных. Специалисты по обработке и анализу данных помогают организациям выявлять закономерности и делать прогнозы относительно того, что может произойти, сочетая компьютерные науки, моделирование, статистику, аналитику и математические навыки с разумным деловым чутьем.

Тем не менее, компании также часто используют классические инструменты машинного обучения для решения проблем принятия решений, таких как установление цены или выбор клиентов для маркетинговой кампании. Существует значительный разрыв между прогнозированием и принятием решения, так как же мы можем сделать еще один шаг вперед?

Яблоки, апельсины и ложные корреляции

Является ли модель машинного обучения хорошей или плохой, зависит от данных, которые она передает. Вот почему специалисты по данным тратят часы на предварительную обработку данных, чтобы тщательно выбрать функции, которые в наибольшей степени повлияют на качество итоговой модели.

Корреляция является важным инструментом для этого. Это статистическая мера, которая выражает степень, в которой две переменные связаны линейно, т. Е. Изменяются ли они вместе с постоянной скоростью.

Однако корреляция не подразумевает причинно-следственную связь, и нельзя законно вывести причинно-следственную связь между двумя переменными исключительно на основе наблюдаемой связи между ними. Но когда наблюдения показывают, что линии диаграммы сходятся под наклоном или полосы поднимаются вместе, это естественная человеческая склонность придумывать причину, создавать нарратив и приходить к выводу о причинно-следственных связях.

Статистически мы не можем совершить такой скачок. Однако, как продемонстрировал на своем веб-сайте Тайлер Виген, студент Гарвардской школы права, чаще всего переменные связаны, но не связаны причинно, либо из-за совпадения, либо из-за наличия определенного третьего, невидимого фактора. Это так называемые ложные корреляции.

Диаграммы на его веб-сайте изображают нелепые корреляции, например, между продажами Apple iPhone и количеством людей, погибших при падении с лестницы. Хотя подобные абсурдные примеры легко заметить и объяснить, становится трудно установить истину, когда сталкиваешься с подтасованными, но правдоподобными диаграммами. Без рандомизированных экспериментов и причинно-следственных связей методы, основанные на корреляции, могут ввести нас в заблуждение.

Зачем беспокоиться о причинно-следственных связях?

Джуда Перл в своей «Книге о том, почему?» прекрасно объясняет необходимость причинно-следственной связи.

Мы знаем, что апельсины предотвращают цингу. Разве недостаточно этой неопровержимой корреляции? Но что, если у вас закончились апельсины? Не зная настоящей причинно-следственной связи, витамин С, можно попробовать бананы.

Для бизнеса это может означать разницу между неожиданной прибылью или полным крахом. Рассмотрим следующие сценарии, представляющие иллюзию причинно-следственной связи:

Сценарий 1

Компания XYZ создала новое приложение для покупок. Показатели удаления очень высоки, несмотря на то, что приложение имеет удобный пользовательский интерфейс и не слишком тяжелое. Более глубокий анализ данных показывает, что существует корреляция между отказом от корзины и удалением.

Лучшим подходом к решению этой ситуации будет нацеливание на тех, кто бросил корзину, с помощью ремаркетинга или предложения опции гостевой проверки. Но что, если брошенная корзина не была причиной удаления?

Если реальная проблема, вызывающая как отказ от корзины, так и удаление, заключалась в слишком большом количестве шагов при покупке, которые отпугивали клиентов от фактического оформления заказа, все действия, предложенные выше, окажутся бесполезными.

Сценарий 2

Компания по производству товаров для красоты и личной гигиены хочет, чтобы клиенты покупали их план подписки. После запуска модели рыночного микса наблюдение показало, что почти каждый, кто нажимал на их страницу «Расширенные советы по красоте», является подписчиком. Следовательно, они разместили страницу более заметно на веб-сайте и запустили кампанию по электронной почте, чтобы уведомить тех, кто не является подписчиком, о существовании этой страницы. К их удивлению, кампания привела к меньшему количеству подписок.

Почему это произошло?
Несмотря на то, что существовала корреляция между просмотром страницы Advanced BeautyTips и существующими подписчиками, она не была причинно-следственной связью и, следовательно, не повышала вероятность того, что пользователи подпишутся. В этом сценарии, скорее всего, люди, просматривавшие страницу «Дополнительные советы по красоте», были опытными косметологами. Поощряя пользователей, которые еще не подписались, к просмотру страницы «Расширенные советы по красоте», компания запугивала начинающих косметологов и отговаривала их от подписки.

Делать или не делать: когда мы должны действовать в соответствии с корреляциями?

Ответ на этот вопрос зависит от двух неявных вопросов:

  1. Будет ли эта корреляция достоверно иметь место в будущем?
  2. Каков компромисс между риском и вознаграждением за действие?

Еще в 2014 году BCG разработала призму, через которую можно оценить любое потенциальное действие, как показано ниже:

График предполагает то, что мы все интуитивно знаем: имеет смысл действовать, когда выгоды намного перевешивают риск, даже если корреляция слабая. Это похоже на то, как если бы вы смотрели в обе стороны, прежде чем переходить улицу, потому что затраты на то, чтобы смотреть, низки, а потенциальные потери от того, что вы не смотрите, высоки. В качестве альтернативы, если риск слишком высок и у нас нет четкого понимания того, почему два события связаны, то действие необходимо пересмотреть.

Важно отличать причину от корреляции, чтобы выйти за рамки прогнозирования и прогнозирования и понять, как переменные влияют друг на друга и как мы можем использовать вмешательства для изменения системы.

Иногда при работе с большими данными достаточно корреляции. Но в других случаях понимание причины жизненно важно. Ключ в том, чтобы знать, когда корреляции достаточно и что делать, когда этого недостаточно.

Причинно-следственный вывод на помощь
Причинно-следственный вывод — это метод, используемый для определения того, изменяются ли изменения в переменной X ПРИЧИНЫ в другой переменной, а именно Y.

Золотым стандартом для установления причины и следствия являются рандомизированные контролируемые испытания или A/B-тесты. Однако мы не всегда можем проводить такие эксперименты, поскольку они дороги, трудоемки и порой неэтичны. Вместо этого мы полагаемся на данные наблюдений и статистику, чтобы получить ответ.

Погружаясь глубже: основы причинно-следственной связи

Существуют две общепринятые концепции причинно-следственной связи:

Структурные причинно-следственные модели Джудеи Перл
Джудея Перл представил причинно-следственную метамодель, включающую трехуровневую абстракцию, которую он называет «лестницей причинности». Снизу вверх это:

  1. Ассоциация — Видение/Наблюдение — «О, кажется, продажи и цена связаны». Это утверждение носит чисто статистический или наблюдательный характер — например, поиск закономерностей во входных данных, что часто выражается в виде корреляции.
  2. Вмешательство — Действия — «Что произойдет, если мы удвоим цену?» Этот вопрос включает в себя рассуждение или прогнозирование результатов обдумывающих действий.
  3. Контрфакты — воображение — «Что бы произошло, если бы мы этого не сделали?» Этот вопрос включает в себя построение теории, которая объясняет, почему определенные действия имеют определенные последствия и что происходит в отсутствие таких действий.

Структурные причинно-следственные модели — это математические модели, представляющие причинно-следственные связи в популяции. Обычно структура причинно-следственной модели представлена ​​в виде направленного ациклического графа (DAG), как показано ниже:

Стрелки представляют причинно-следственную связь, т. е. стрелка от А к Б подразумевает, что А вызывает Б. Здесь мы устанавливаем продажи в качестве целевой переменной, направляя фокус на ответ «Что вызывает продажи?»

Еще один термин, который становится очень актуальным в этой области, — вмешивающиеся факторы — это переменные, влияющие как на зависимые, так и на независимые переменные. В нашем предыдущем примере слишком много шагов в процессе покупки — это помеха. Чаще всего это ненаблюдаемые смешанные переменные, которые вызывают ложную корреляцию, наблюдаемую в двух, казалось бы, не связанных между собой переменных.

Было разработано множество сложных инструментов для изучения DAG по данным наблюдений. Однако они все еще находятся в зачаточном состоянии, и мы должны включить в эти графики знания предметной области, чтобы сделать их более актуальными.

Модель потенциальных результатов Дональда Рубина

Если нас интересует результат преднамеренных изменений переменной лечения, то «Потенциальные результаты» рассматриваются при каждом возможном варианте лечения.

Мы не можем одновременно наблюдать оба возможных результата для человека. Эта дилемма известна как «фундаментальная проблема каузального вывода». Например, если человек принимает лекарство, мы никогда не узнаем, что было бы, если бы он этого не сделал. То есть, мы не можем оценить причинный эффект на уровне единицы. Однако с некоторыми допущениями мы можем оценить средний причинный эффект на уровне популяции.

(Безнадежно): Что было бы, если бы я не принял лекарство?

(Возможно) : Какова была бы скорость ремиссии, если бы все принимали лекарства, по сравнению с тем, если бы никто этого не делал?

Для этого мы делим интересующую нас популяцию на лечебную и контрольную группы. Разница их среднего значения является средним причинным эффектом.

В некоторых случаях такие рандомизированные эксперименты невозможны из-за этических или практических соображений. В этих сценариях Causal Inference спасает положение, моделируя рандомизированные испытания на основе данных наблюдений с использованием многих статистических методов, таких как сопоставление показателей склонности и обратная вероятность взвешивания лечения.

Заключение

Причинность в основном касается вмешательств — действий. Стандартная статистика — это все о корреляциях, которые часто приводят к неправильным предположениям и, непреднамеренно, к неправильным решениям.

Понимание того, «почему» что-то происходит, может помочь нам скорректировать методы и цели в соответствии с нашими результатами вместо того, чтобы циклически перебирать методы и тактики в надежде, что какой-то из них сработает.

Доверие к вашим моделям для принятия решений требует, чтобы они имели причинно-следственный смысл. Достижение действительно значительного прироста производительности часто зависит от понимания и устранения основных причин ситуации. Наши эксперты LatentView Analytics могут помочь вам выявить причины и принять бизнес-решения, ориентированные на устойчивый рост.

Хотите узнать больше? Пожалуйста, свяжитесь с нами или напишите нам по адресу [email protected]

Первоначально опубликовано на https://www.latentview.com