Это третья статья из серии статей о теории информации и ее связи с предприятиями и стратегией, основанными на данных. Несмотря на то, что в каждом разделе будет несколько уравнений, их можно в значительной степени игнорировать, если они не заинтересованы в деталях и больше заинтересованы в последствиях. Предыдущую статью о взаимной информации и, как ни странно, сюжете Макбета можно найти здесь.

Причинно-следственная связь переоценена

Создадим ситуацию. Предположим, существует некоторый случайный процесс, назовите его X. Этот процесс принимает некоторый ввод (µ), а затем производит вывод на основе распределения Коши с центром µ. Распределения Коши вызывают проблемы, потому что они почти во всех отношениях похожи на нормальные распределения, но с немного большей вероятностью экстремальных событий (немного более толстые хвосты). В результате, хотя нормальные процессы имеют четко определенные ожидания и изменяются ожидаемым образом, распределения Коши имеют неопределенное среднее значение и бесконечно сильно меняются. Давайте определим другой процесс под названием Y. Результатом процесса Y является X, такой что:

Y вызван X, а X вызван µ. Знание входных данных X не дает вам почти никакой информации о X, тогда как знание Y дает вам скромную информацию о X. Если вы хотите знать X, вам гораздо лучше знать коррелятивную информацию (Y), чем причинную информацию (µ).

Акцент на причинно-следственной связи в значительной степени обусловлен страхом ложной корреляции [1] и слишком большой верой в эфемерные отношения. Чтобы убедиться в этом, рассмотрим следующую серию, сгенерированную случайным выбором 1 и 0 с равными шансами:

Не зная производящей функции, серии 2 и 3 предлагают точную информацию друг о друге. Конечно, нет никакой гарантии, что эта тенденция сохранится - на самом деле, очень маловероятно, что она сохранится за пределами трех или четырех цифр. Другими словами, мы могли бы сформулировать простое правило: когда серия 2 представляет собой 1, серия 3 представляет собой 0, и наоборот. Фактически, любое правило, выведенное из этих наблюдений, гарантированно в конечном итоге катастрофически не сработает по мере продолжения серии.

Как показывает приведенный выше пример, не безумие заниматься причинно-следственной связью, но думать только о ней - это что-то среднее между глупостью и болезненной глупостью. Причинно-следственную связь, как известно, трудно доказать, особенно в социальных науках ... особенно в бизнес-среде. Рассмотрим следующий набор последовательных событий:

На приведенной выше диаграмме A является экземпляром события для событий B и C. Результат A влияет на B и C через некоторые неизвестные причинные процессы. В панглоссовском мире у нас было бы совершенное знание события A, его результатов и процесса, посредством которого оно вызывает B и / или C. Однако наш мир не лучший из всех возможных миров. Несколько причин, по которым у нас может не быть доступа к этой информации, включают следующие проблемы:

1. Конфиденциальность. Сценарий может быть в некотором смысле незаконным, если вы будете знать результат A или процесс влияния на B&C. См .: в качестве примеров секретная информация и существенно важная закрытая информация.

2. Неприводимая сложность: сценарий может быть настолько безнадежно сложным, что ни у кого нет интеллектуальной способности [2] понять ни событие А, ни мириады смешивающих факторов и взаимодействий в причинном процессе. См .: общественное здоровье и социальная психология.

3. Расходы. Сценарий может быть невероятно дорогим для понимания с точки зрения прямых затрат, технологического долга или временных затрат. Изучите астрофизику (мы стараемся не посещать далекие звезды) и макроэкономику (мы стараемся не разрушать экономику, чтобы увидеть, что произойдет)

Если что-то из этого применимо, еще не все потеряно. Если A является причиной B, мы ожидаем, что он будет содержать значительный (или, по крайней мере, ненулевой) объем взаимной информации с B. То же самое для A и C. И поскольку взаимная информация симметрична:

Короче говоря, наблюдение за событием B дает информацию о событии C, даже если B не является причинным. Но ситуация даже лучше. B не только предоставляет информацию о C в некотором роде, но даже проходит проверку на нюх, потому что они связаны через A. Но подождите, это еще не все. Если у вас есть некоторые исторические данные об общих отношениях между A и B, это избавляет от необходимости понимать сложные причинные процессы, связывающие A с B или C.

Рост продаж и ARR являются причиной движения цен, хотя они не разглашаются до объявления отчета о прибылях и убытках. Количество отзывов, оставленных на их веб-сайте, не является конфиденциальным, и хотя обзор не приводит к продаже, он вполне может предоставить информацию о количестве произведенных продаж (больше продаж - ›предположительно больше отзывов). Точно так же игра «Сихокс» в четверг вечером не вызывает несчастных случаев на заводе, но может предвещать их. Причинно-следственная связь обходится дорого и вводит в заблуждение, взаимно информативные мероприятия недороги и полезны.

Несоразмерная информация о редких событиях: кризис геймификации

Начнем с вопроса на собеседовании по науке о данных. Обычно в рамках первоначального отбора кандидатов начального уровня мне нравится находить в их резюме пример проекта, в котором используются данные из реальной жизни. Данные из реальной жизни намного отвратительнее академических и исследовательских данных. Он заполнен недостающими данными, смешанными (целочисленными и строковыми) данными и выбросами, которые значительно усложняют использование и моделирование информации. Неизменно большая часть разговоров вращается вокруг этих соображений реального мира. Как вы справляетесь с отсутствующими данными? Обычные ответы включают в себя какую-то стратегию замены информации, например, замену их средним значением столбца. Справедливо и разумно. Что делать с искаженными или смешанными данными? Опять же, обычно справедливый ответ, связанный с преобразованием строк в числа. Наконец, что вы сделали с крупными выбросами? Обычно ответ таков, что они «удалили их», потому что «нельзя ожидать, что вы предсказываете редкие события». Окончательное оправдание: это повысило точность моделей. Это хороший ответ, если построение прогноза - это игра или соревнование, и гораздо хуже, если вы хотите его использовать.

Выбросы очень важны. Хотя их удаление может быть справедливым, мы также должны проявлять осторожность при обращении с ними. Мы можем видеть это как с теории информации, так и с интуитивной точки зрения. Как всегда, начнем с теории. Для начала рассмотрим частичную энтропию результата.

Частичная энтропия - это количество информации, которую имеет конкретный результат в случайном процессе. Сумма частичной энтропии для каждого результата - это энтропия случайного процесса X.

Из приведенного выше графика мы заметили несколько вещей. Во-первых, результаты этой информационной формы не являются симметричными. Результаты с вероятностью 40% не содержат той же информации, что и результаты с 60%. Фактически частичная энтропия смещена в сторону более редких событий; событие с вероятностью 40% содержит больше информации, чем его 60% аналог. Это приводит нас ко второму наблюдению, согласно которому редкие события, вероятность которых близка к нулю, содержат тот же объем информации, что и очень распространенные события. События с вероятностью 96,4% добавляют около 0,05 бита информации, примерно так же, как событие с вероятностью 0,7%. Было бы неразумно игнорировать 96,4% мира, так же неблагоразумно игнорировать 0,7% его.

Механика бессердечного игнорирования редких событий - еще более опасное занятие. Давайте рассмотрим процесс X с результатами A, B C такими, что:

Предположим, у нас есть 1000 наблюдений, на которых мы собираемся построить нашу модель. Энтропия X составляет ~ 0,72. Давайте рассмотрим еще одну метрику, основанную на энтропии:

Маргинальная энтропия наблюдения рассматривает количество информации, переносимой одним наблюдением. Это полезно для оценки влияния удаления (игнорирования) отдельных строк данных. Применяя как предельную, так и частичную энтропию, мы можем оценить влияние игнорирования любой части данных.

Отдельные наблюдения за событием C несут в 3 раза больше информации, чем событие B, и в 20 раз больше наблюдений за A. Вы не могли бы игнорировать наблюдения около 80% (A) ваших результатов без уважительной причины, и вам понадобится гораздо лучшая причина, чтобы игнорировать наблюдения о C. Результат C также содержит 8% от общего количества информации в данных. Хотя можно игнорировать 8% мира, стоит проявлять чрезвычайную осторожность.

Удаление этих событий не только приводит к потере информации, но и создает ложную уверенность в вашем прогнозе. С точки зрения взаимной информации хороший прогноз - это тот, который максимизирует взаимную информацию между моделью и миром. Как только мы удалим редкие события, мы больше не моделируем мир, а что-то еще. Мы моделируем его геймифицированную версию, цель которой не в снижении рисков или получении прибыли, а в том, чтобы получить высокий балл. Это может быть полезно для поучительных целей, но ужасно для обозначения хорошо аргументированных решений.

Помимо теории, практика устранения экстремальных явлений также должна беспокоить наш кишечник. Подавляющее большинство столкновений автомобилей происходит с крыльями и бамперами на низкой скорости. Лав постукивает в плотном потоке машин, попадает в балку на парковке и тому подобное. Если вы удалите выбросы, вы в конечном итоге проигнорируете типы столкновений, которые вас действительно волнуют. Фабрики не останавливаются, потому что партия прибывает днем, а не утром, и экономика не рушится из-за ежедневных колебаний цен на активы. Экстремальные события - это события, имеющие как последствия, так и несоразмерную информацию.

Информационный риск: второй взгляд

В первой статье мы кратко описали понятие информационного риска. До сих пор мы обсуждали, как в неопределенном мире мы можем лучше понять неопределенность и как мы можем с ней справиться. Мы также показали, как искаженные представления об уверенности или чрезмерной уверенности в причинности могут быть в лучшем случае пагубными, а в худшем - катастрофически ошибочными. Информационный риск в этих сценариях в значительной степени означает чрезмерную уверенность, хотя нам этого не следует. В следующем разделе мы рассмотрим, что происходит, когда даже детерминированные системы - системы с идеальной взаимной информацией между наблюдениями и результатами - становятся более сложными, чем мы можем надеяться понять.

— — — — — — — — — — — — — — — — — — — — — — — — — — —-

[1] И так называемая теорема о запрете бесплатного обеда

[2] В следующей статье мы будем рассматривать это как пропускную способность канала.