Скептицизм в науке о данных

Это комментарий/обзор небольшой важной книги — Как быть скептиком данных, автор Кэти О'Нил.

«Скептик, а не циник» — так Кэти О’Нил начинает свою книгу, состоящую всего из 20 страниц, в которой излагаются основные аргументы в пользу этики науки о данных. В эпоху, когда данные от потребителей собираются в огромных масштабах для улучшения обслуживания и увеличения прибыли от продаж, становится очень важным обсудить различные методы сбора данных и методы моделирования. Важно учитывать прокси, которые используются для представления неизмеримых данных, а также коэффициенты шума и ошибок, которые их сопровождают. Кэти указывает на все тонкие, но неуловимые аспекты современной практики Data Science. Контекст доходчиво объясняется как специалистам по обработке данных (в книге «ботаникам»), так и деловым людям.

Математика, скрытая за сложными моделями, которые приносят огромный доход бизнесу, как правило, предоставляется для понимания Ботаникам. Математический жаргон считается само собой разумеющимся, что так и есть. Проблема заключается в моделировании, которое использует неуместную математику.

В книге рассказывается о зависимости индустрии от данных. Эта задача разделена на 4 части. Люди становятся зависимыми от данных. Из-за отсутствия понимания математики, лежащей в основе модели, некоторые лица, принимающие решения, полагают, что чем больше данных, тем лучше понимание, что не всегда так. Каждый указатель данных должен быть подкреплен описательной частью, которая делает его действительным для рассматриваемой проблемы. Бездумный сбор данных и внедрение в модель могут быть опасными. Эта зависимость порождает определенные непрактичные (иногда неэтичные) методы получения данных. Слишком много внимания уделяется цифрам, недостаточно — поведению. Предшествующая проблема зависимости создает вторую проблему подмены данных. Поскольку все не измеримо, например. Настроение, здоровье и т. д., несколько прокси используются для представления этих данных. Предприятия стремятся добиться успеха с ограниченными ресурсами. Вот почему они обычно заменяют неправильные прокси для представления определенных данных. Сгенерированные модели могут быть ошибочными. Реализация таких моделей в сценариях с высокими ставками довольно рискованна. Жилье, кредитный риск, образование и т. д. не могут позволить себе модель «N = все». Шумы в данных и неправильные прокси-серверы могут иметь огромное влияние на жизнь людей. Люди неправильно формулируют проблему. Модели, использующие большие объемы данных, обычно сложны. Стоимость и сложность реализации этих моделей неосуществима. О’Нил объясняет на примере, что приз Netfilx за рекомендацию фильмов был выигран, но так и не был реализован из-за его сложности. Netfilx неправильно обозначил участникам проблему ограничений реализации. Люди игнорируют порочные стимулы. После того, как модель начинает работать, существует тенденция уделять меньше внимания частоте ошибок. Модели, которые изначально дают хорошие результаты, могут позже дать сбои. Коэффициенты ошибок могут складываться по мере развития модели. Такие факторы необходимо держать под контролем. Должны быть разработаны и испытаны различные модели.

Другая сторона проблемы — неспособность осознать силу, которой обладают эти модели. Слишком мало доверять данным. Хотя данные могут быть опасными, если они неправильно адаптированы перед внедрением, недооценка данных также является очень распространенной практикой. Люди не используют математику для оценки стоимости. Перед началом проекта из-за различий в диалектах деловых людей и ботаников общая стоимость проекта (расходы и доходы) не рассчитывается. Следует избегать выделения большего количества ресурсов для решения относительно небольшой проблемы. Стартапы, которым нравится наука о данных, обычно совершают эту ошибку. Возвращение Кванта обратно в комнату. В этой книге термины «кванты» и «специалисты по данным» взаимозаменяемы. Крайне важно хорошо информировать квантов о видении проекта. О’Нил советует специалистам по бизнесу включать специалистов по данным на собрания, потому что они чрезвычайно умны и добавят более глубокое понимание решения вашей проблемы с данными. В этом сценарии важно исправить диалектную разницу между двумя народами. Интерпретация скептицизма как негатива — еще одна причина, по которой количественные анализы в значительной степени игнорируются при принятии решений. Особенно в стартапах, где культура инноваций и позитивный настрой религиозно востребованы, кванты с их рациональностью исследуют и тщательно изучают идеи и предложения. Такой негатив нужно воспринимать положительно. Игнорирование более широких культурных последствий. Возможно, самая важная моральная обязанность Data Scientist — оценивать невидимое культурное влияние своих моделей. Каждая модель оставляет после себя следы негативного воздействия, которое может сильно сказаться на популяции. Формирование внешних факторов, определяемых как «не моя проблема», генерируется в каждой модели. Важно убедиться, что они не создают крупномасштабную негативную обратную связь, которая наносит ущерб какой-либо культуре общества.

Моделирование дает специалистам/компании возможность заставить клиента что-то сделать для них. Это, во многих случаях, связано с вероятностью манипулирования клиентом. Как лица, находящиеся у власти, мы несем моральную ответственность за соблюдение справедливой сделки. Клиенты не понимают ценности своего вклада, но, тем не менее, эта ценность должна быть им возвращена.

В заключение О’Нил признает, что наука о данных совершит великие дела на благо общества и проложит путь в будущее. И что для того, чтобы действительно улучшиться, наука о данных должна относиться к этому скептически, поскольку она показывает нам наши ошибки, которые мы отказываемся признать.

Здесь я рассказываю о своих личных взглядах и опыте.

Я работаю в Data science менее 6 месяцев. Я участвовал в планировании, определении и решении проблем, связанных с данными, в финансовом секторе. Эта книга помогла прояснить путаницу с трудовой этикой при решении этих проблем. Когда вы работаете со столькими ресурсами в вашем распоряжении, возникает соблазн использовать точки данных, которые могут дать вам более быстрые результаты, но могут иметь негативные последствия в будущем. Например, для решения проблемы кредитного рейтинга в Upscale (где я сейчас работаю) есть определенные указатели данных, которые согласованы для использования в моделировании, то есть те, которые обычно используются CIBIL (кредитно-оценочная организация Индии). Наличие дополнительных данных в вашем распоряжении заманчиво. Это могут быть такие данные, как финансовые записи супруга, место жительства, пол, религия. Эти указатели данных могут дать очень хорошие модели доходов банков от предоставления кредитов, но они создают социально-экономический раскол. Условия проживания, пол и религия создают в модели предубеждения, которые продолжают расти по мере роста модели. В долгосрочной перспективе модель будет одобрять финансирование только для мужчин, живущих в хороших обществах. Это сводит на нет политику предоставления кредитов людям для улучшения их жизни.

Книга Кэти О’Нил дала хорошее представление о моральной ответственности, связанной с доступом к публичным Данным. Следующим в моем списке для чтения является Оружие математического разрушения Кэти О’Нил. Я напишу об этом в ближайшее время.

Пожалуйста, прокомментируйте ниже свое мнение о методах Data Science и любые предложения/исправления, которые вы хотели бы внести.

Скептицизм в науке о данных — это здорово

Вопросы по теме