ТЕМНАЯ СТОРОНА БОЛЬШИХ ДАННЫХ — КАК МАТЕМАТИЧЕСКИЕ МОДЕЛИ УВЕЛИЧИВАЮТ НЕРАВЕНСТВО

Мы живем в век алгоритмов. Где интернет, там и алгоритмы. Приложения на наших телефонах — результат работы алгоритмов. Система GPS может привести нас из точки А в точку Б благодаря алгоритмам. Все больше и больше решений, влияющих на нашу повседневную жизнь, передаются автоматизации. Поступаем ли мы в колледж, ищем ли работу или берем кредит, математические модели все чаще участвуют в принятии решений. Они пронизывают школы, суды, рабочие места и даже процесс голосования. Нас постоянно ранжируют, классифицируют и оценивают по сотням моделей на основе выявленных нами предпочтений и паттернов; как покупатели и домоседы, как пациенты и соискатели кредита, и очень мало из этого мы видим — даже в приложениях, на которые мы с радостью подписываемся.

Все больше и больше решений все чаще принимается алгоритмами, что теоретически должно означать, что человеческие предубеждения и предубеждения должны быть устранены. Алгоритмы, в конце концов, нейтральны и объективны. Они применяют одни и те же правила ко всем, независимо от расы, пола, этнической принадлежности или способностей. Однако это не могло быть далеко от истины. На самом деле, математические модели могут быть и в некоторых случаях были инструментами, которые усугубляют неравенство и несправедливость. О’Нил называет такие модели оружием математического разрушения (ОМУ). Эти модели предвзяты и несправедливы, поскольку они учатся кодировать ядовитые предубеждения, учась на прошлом опыте, как быть несправедливым. Эти модели наказывают расовые и этнические меньшинства, низкооплачиваемых рабочих и женщин. Как будто эти модели были созданы специально для того, чтобы наказывать и подавлять их. Поскольку мир данных продолжает расширяться, каждый из нас производит постоянно растущие потоки обновлений о своей жизни, то же самое происходит с предубеждениями и несправедливостью.

Математические модели произвели революцию в мире, и их отличительной чертой является эффективность, и, конечно же, они не просто инструменты, которые создают и распространяют предвзятость, несправедливость и неравенство. На самом деле модели по своей природе ни хороши, ни плохи, ни справедливы, ни несправедливы, ни нравственны, ни безнравственны — они просто инструменты. Спортивная сфера — хороший пример, когда математические модели являются силой добра. Для некоторых из самых конкурентоспособных бейсбольных команд сегодня конкурентные преимущества и победы зависят от математических моделей. Менеджеры принимают решения, которые иногда связаны с перемещением игроков по полю, на основе анализа исторических данных и текущей ситуации и рассчитывают позиционирование, связанное с наибольшей вероятностью успеха.

Однако между моделями, например, используемыми бейсбольными менеджерами и ОМП, есть существенные различия. В то время как первый прозрачен и постоянно обновляет свою модель с помощью обратной связи, последний, напротив, представляет собой непрозрачные и непостижимые черные ящики. Кроме того, в то время как бейсбольные аналитические системы управляют людьми, каждый из которых потенциально стоит миллионы долларов, компании, нанимающие работников с минимальной оплатой труда, напротив, управляют стадами. Их целью является оптимизация прибыли, поэтому они сокращают свои расходы, заменяя специалистов по кадрам машинами, которые фильтруют большие группы населения в управляемые группы. В отличие от бейсбольных моделей, у этих компаний нет особых причин — скажем, из-за резкого падения производительности — корректировать свою модель фильтрации. Основное внимание О’Нила в книге уделяется тем, которые непрозрачны и непостижимы, которые используются в влиятельных учреждениях и отраслях, которые создают и увеличивают неравенство — ОМУ — «темная сторона больших данных»!

Книга содержит важные идеи (или навязчивые предупреждения, в зависимости от того, как вы решите подойти к ней) в отношении катастрофических направлений, в которых движутся математические модели, используемые в социальной сфере. И он не мог исходить из более надежного и опытного источника, чем гарвардский математик, который затем пошел работать количественным специалистом в D. E. Shaw, ведущий хедж-фонд и, среди прочего, специалист по данным.

Одна из самых постоянных тем книги О’Нила заключается в том, что главные цели данной модели имеют решающее значение. На самом деле цели определяют, станет ли модель инструментом, помогающим уязвимым, или инструментом, который используется для их наказания. Цели оружия массового уничтожения часто заключаются в оптимизации эффективности и прибыли, а не справедливости. Это, конечно, природа капитализма. А эффективность ОМП достигается за счет справедливости — они становятся предвзятыми, несправедливыми и опасными. Деструктивная петля ходит по кругу, и в процессе модели становятся все более и более несправедливыми.

Правовые традиции сильно склоняются к справедливости… ОМУ, напротив, склонны отдавать предпочтение эффективности. По самой своей природе они питаются данными, которые можно измерить и подсчитать. Но справедливость хрупка и ее трудно измерить. Это концепция. И компьютеры, несмотря на все их достижения в области языка и логики, все еще сильно борются с понятиями. Они «понимают» красоту только как слово, связанное с Гранд-Каньоном, океанскими закатами и советами по уходу в журнале Vogue. Они тщетно пытаются измерить «дружбу», подсчитывая лайки и связи в Facebook. И понятие справедливости совершенно ускользает от них. Программисты не знают, как кодировать для этого, и мало кто из их боссов тоже спрашивает их. Таким образом, справедливость не вычисляется в ОМУ, и результатом является массовое промышленное производство несправедливости. Если вы думаете об ОМУ как о фабрике, несправедливость — это черная гадость, вырывающаяся из дымовых труб. Это эмиссия, токсичная. [94–5]

Тюремная система является поразительным примером, где ОМП все чаще используется для дальнейшего усиления структурного неравенства и предрассудков. В США, например, заключенные непропорционально бедны и цветные. Будучи чернокожим мужчиной в США, вы почти в семь раз более вероятно попадете в тюрьму, чем если бы вы были белым мужчиной. Справедливы ли такие убеждения? Многие различные линии доказательств говорят об обратном. Чернокожих чаще арестовывают, чаще признают виновными, к ним жестче относятся сотрудники исправительных учреждений, и они отбывают более длительные сроки, чем белые, совершившие то же преступление. Уровень тюремного заключения чернокожих за преступления, связанные с наркотиками, например, в 5,8 раза выше, чем у белых, несмотря на примерно сопоставимую распространенность употребления наркотиков.

Тюремные системы, переполненные данными, едва ли проводят важные исследования, например, почему небелые заключенные из бедных районов чаще совершают преступления или каковы альтернативные способы рассмотрения тех же данных. Вместо этого они используют данные, чтобы оправдать работу системы и дополнительно наказать тех, кто уже находится в невыгодном положении. Вопросы о работе системы или вопросы о том, как можно улучшить тюремную систему, почти никогда не рассматриваются. Если, например, целью было укрепление доверия, арест вполне может стать крайней мерой, а не первой. Доверие, как и справедливость, объясняет О’Нил, трудно поддается количественной оценке и представляет собой серьезную проблему для разработчиков моделей, даже если есть намерение рассматривать это понятие как часть цели.

К сожалению, намного проще продолжать подсчитывать аресты, строить модели, которые предполагают, что мы птицы одного поля, и обращаются с нами так… С невиновными людьми в окружении преступников обращаются плохо. А преступники в окружении законопослушной публики получают пропуск. И из-за сильной корреляции между бедностью и сообщениями о преступности бедняки продолжают попадать в эти цифровые сети. Остальным из нас почти не приходится думать о них. [104]

Поскольку эти модели основаны на едва проверенных инсайтах, они в некотором смысле мало чем отличаются от френологии — цифровой френологии. Практика использования внешнего вида для определения внутреннего характера, которая в прошлом оправдывала рабство и геноцид, была объявлена вне закона и сегодня считается лженаукой. Научный расизм вступил в новую эру с появлением оправданной объективности с машинными моделями, включающими человеческие предубеждения. Научные криминологические подходы теперь утверждают, что предоставляют доказательства обоснованности «автоматического вывода о преступности, индуцированного лицом». Однако то, что эти машинно обученные уголовные решения улавливают, прежде всего, систематическая несправедливость.

Модель, которая профилирует нас в соответствии с нашими обстоятельствами, помогает создать среду, которая оправдывает ее предположения. Поток данных, которые мы производим, помогает понять нашу жизнь и поведение. Вместо проверки того, выдерживают ли эти выводы научную проверку, полученные нами данные используются для подтверждения предположений разработчиков моделей и укрепления ранее существовавших предубеждений. И цикл обратной связи продолжается.

Когда я думаю о небрежном и корыстном использовании данных компаниями, я часто вспоминаю френологию… Френология была моделью, которая опиралась на псевдонаучную чепуху для авторитетных заявлений, и в течение десятилетий она оставалась непроверенной. Большие данные могут попасть в ту же ловушку [121–2].

Хоффман в 1896 году опубликовал 330-страничный отчет, в котором он использовал исчерпывающую статистику, чтобы поддержать заявление столь же псевдонаучное и опасное, как френология. Он утверждал, что жизнь чернокожих американцев настолько опасна, что вся раса не подлежит страхованию. Однако статистика Хоффмана была не только ошибочно ошибочной, как многие ОМП, которые О’Нил обсуждает на протяжении всей книги, но и путала причинно-следственную связь с корреляцией. Собранные им объемные данные послужили лишь подтверждением его тезиса: раса является мощным предиктором продолжительности жизни. Кроме того, Хоффману не удалось разделить «черное» население на разные географические, социальные или экономические когорты, слепо предполагая, что все «черное» население представляет собой однородную группу.

Эта жестокая индустрия теперь объявлена вне закона. Тем не менее, несправедливая и дискриминационная практика остается и все еще практикуется, но в гораздо более изощренной форме — теперь она закодирована в последние поколения ОМУ и запутана сложной математикой. Как и Хоффман, создатели этих новых моделей путают корреляцию с причинно-следственной связью и наказывают борющиеся классы, а также расовые и этнические меньшинства. И они подкрепляют свой анализ сферами статистики, которые придают им ученый вид «объективной науки».

Что еще более пугает, так это то, что, поскольку океаны поведенческих данных продолжают поступать прямо в системы искусственного интеллекта, это, к сожалению, по большей части останется черным ящиком для человеческого глаза. Мы редко узнаем о классах, к которым мы были отнесены, или о том, почему нас туда поместили, и, к сожалению, эти непрозрачные модели являются черным ящиком для тех, кто их разрабатывает. В любом случае, многие компании приложат все усилия, чтобы скрыть результаты своих моделей и даже их существование.

В эпоху машинного интеллекта большинство переменных останется загадкой… автоматические программы будут все чаще определять, как к нам относятся другие машины, те, которые выбирают рекламу, которую мы видим, устанавливают цены для нас, запишитесь на прием к дерматологу или наметьте наши маршруты. Они будут очень эффективными, кажущимися произвольными и совершенно необъяснимыми. Никто не поймет их логику и не сможет ее объяснить. Если мы не вернем часть контроля, эти будущие ОМУ будут казаться загадочными и могущественными. У них будет свой путь с нами, и мы едва ли поймем, что это происходит. [173]

В существующей системе страхования (по крайней мере, что касается США) системы отслеживания автостраховщиков, которые предоставляют страховщикам больше информации, позволяющей им создавать более надежные прогнозы, являются опциональными. Только те, кто хочет, чтобы их отследили, должны включить свои черные ящики. Те, кто их включает, получают вознаграждение в виде скидок, тогда как остальные субсидируют эти скидки по более высоким ставкам. Страховщики, которые выжмут из этой информации максимум интеллекта, превратив ее в прибыль, выйдут на первое место. Это, к сожалению, подрывает всю идею коллективизации риска, на которой базируются системы страхования. Чем больше страховщики получают выгоду от таких данных, тем больше они требуют, постепенно превращая трекеры в норму. Потребители, которые хотят скрыть от своих страховщиков всю информацию, кроме важной, будут платить надбавку. Конфиденциальность все чаще будет стоить дороже. Недавно одобренный законопроект США иллюстрирует это. Этот законопроект расширит сферу охвата оздоровительных программ, включив в них генетический скрининг сотрудников и их иждивенцев, а также увеличит финансовые штрафы для тех, кто предпочитает не участвовать.

Быть бедным в мире оружия массового поражения становится все опаснее и дороже. Даже конфиденциальность все чаще становится роскошью, которую могут себе позволить только богатые. В мире, который О'Нил называет «экономикой данных», где системы искусственного интеллекта жаждут наших данных, у нас остается очень мало вариантов, кроме как производить и делиться как можно большим количеством данных о нашей жизни. В процессе нас, явно или неявно, принуждают к самоконтролю и самодисциплине, поскольку мы постоянно пытаемся соответствовать идеальным телам и «нормальному» состоянию здоровья, как это диктуют организации и учреждения, которые занимаются и управляют, скажем, нашими медицинскими страховками. . Raley (2013) называет это наблюдением за данными: формой непрерывного наблюдения с использованием (мета)данных. Постоянно растущий поток данных, в том числе данные, поступающие из Интернета вещей — Fitbits, Apple Watch и другие датчики, которые передают обновления о функционировании нашего тела, продолжают вносить свой вклад в эту «наглядность данных».

Кто-то может возразить, что помогать людям справляться с проблемами веса и здоровья не так уж и плохо, и это будет разумным аргументом. Однако ключевой вопрос здесь, как указывает О'Нил, заключается в том, является ли это предложением или приказом. Используя ошибочную статистику, такую как ИМТ, который О’Нил называет «математическим змеиным маслом», корпорации диктуют, как должны выглядеть идеальное здоровье и тело. Они ущемляют нашу свободу, формируя идеалы нашего здоровья и тела. Они наказывают тех, на кого им не нравится смотреть, и награждают тех, кто соответствует их идеалам. Такие эксплуатации маскируются под научные и узакониваются за счет использования кажущихся научными числовых показателей, таких как ИМТ. ИМТ, отношение веса человека (кг) к росту (см) в квадрате, является лишь грубым числовым приближением физической подготовки. И поскольку «средний» мужчина подкрепляет свои статистические оценки, более вероятно сделать вывод, что женщины имеют «избыточный вес» — в конце концов, мы не «средние» мужчины. Хуже того, чернокожие женщины, у которых часто более высокий ИМТ, платят самые суровые наказания.

Контроль больших объемов данных и гонка за созданием мощных алгоритмов — это борьба за политическую власть. Это иллюстрирует поразительно критический взгляд О’Нила на такие корпорации, как Facebook, Apple, Google и Amazon. Хотя эти могущественные корпорации обычно сосредоточены на зарабатывании денег, их прибыль тесно связана с политикой правительства, что делает вопрос по существу политическим.

Эти корпорации обладают значительной властью и большим объемом информации о человечестве, а вместе с тем и средствами, позволяющими направлять нас любым путем, который они выберут. Активность единого алгоритма Facebook в день выборов может не только изменить баланс Конгресса, но и потенциально решить президентство. Когда вы просматриваете свои обновления в Facebook, то, что появляется на вашем экране, совсем не нейтрально — ваша новостная лента подвергается цензуре. Алгоритмы Facebook решили, видите ли вы разбомбленную Палестину или скорбящих израильтян, полицейского, спасающего ребенка, или сражающегося с протестующим. Можно возразить, что телевизионные новости всегда делали то же самое, и в этом нет ничего нового. CNN, например, предпочитает освещать определенную историю с определенной точки зрения и определенным образом. Однако главное отличие в случае с CNN заключается в том, что редакционное решение четко зафиксировано в протоколе. Люди могут спорить, правильно ли это решение. С другой стороны, Facebook, по словам О’Нила, больше похож на Волшебника страны Оз — мы не видим вовлеченных людей. Обладая огромной силой, Facebook может влиять на то, что мы узнаем, как мы себя чувствуем и голосуем ли мы — и мы почти ничего из этого не осознаем. То, что мы знаем о Facebook, как и о других интернет-гигантах, в основном связано с крошечной долей их исследований, которые они публикуют.

В обществе, где деньги покупают влияние, эти жертвы оружия массового уничтожения почти лишены голоса. Большинство политически бесправны. Бедные страдают больше всего, и их слишком часто обвиняют в их бедности, плохих школах и преступлениях, от которых страдают их соседи. Им, по большей части, не хватает экономической власти, доступа к адвокатам или хорошо финансируемым политическим организациям, чтобы вести свою борьбу. ОМУ служат инструментами — от снижения кредитных рейтингов меньшинств до сексизма на рабочем месте. Результатом является широкомасштабный ущерб, который слишком часто принимается за неизбежность.

Опять же, легко отметить, что несправедливость, основанная на предвзятости или жадности, была с нами всегда, и ОМП не хуже, чем человеческая злоба недавнего прошлого. Как и в приведенных выше примерах, разница заключается в прозрачности и подотчетности. Принятие решений человеком имеет одно главное достоинство. Он может развиваться. По мере того, как мы учимся и адаптируемся, мы меняемся. Автоматизированные системы, особенно те, которые О'Нил классифицирует как оружие массового уничтожения, напротив, застревают во времени, пока инженеры не берутся за их изменение.

Если бы в начале 1960-х годов модель поступления в колледжи с большими данными зарекомендовала себя, у нас по-прежнему было бы не так много женщин, поступивших в колледж, потому что ее обучали бы в основном успешные мужчины [204]

Будьте уверены, книга не вся обречённая и мрачная или что все математические модели предвзяты и несправедливы. На самом деле, О’Нил приводит множество примеров, когда модели используются во благо и модели, которые могут стать великими.

Станет ли модель инструментом, помогающим уязвимым, или оружием для совершения несправедливости, как снова и снова подчеркивает О'Нил, сводится к ее основным целям. Математические модели могут просеивать данные, чтобы найти людей, которые могут столкнуться с проблемами, будь то преступность, бедность или образование. Виды принятых целей определяют, используется ли такая разведка для отказа или наказания тех, кто уже уязвим, или для того, чтобы достучаться до них с помощью необходимых им ресурсов. Пока целью остается максимизация прибыли, или исключение как можно большего числа претендентов, или заключение в тюрьму как можно большего числа правонарушителей, эти модели служат оружием, усиливающим неравенство и несправедливость. Измените эту цель с высасывания людей на контакт с ними, и оружие массового уничтожения будет разоружено — и даже может стать силой добра. Процесс начинается с самих моделистов. Как и врачи, специалисты по данным должны дать клятву Гиппократа, которая фокусируется на возможном неправильном использовании и неправильном толковании их моделей. Кроме того, такие организации, как Лига алгоритмической справедливости, которые стремятся повысить осведомленность об алгоритмической предвзятости, предоставляют людям возможность сообщать о таких предубеждениях.

Непрозрачность является общей чертой ОМУ. Людей увольняют с работы, отправляют в тюрьму или им отказывают в кредитах из-за их алгоритмических кредитных рейтингов без объяснения того, как и почему. Чем больше мы осознаем их непрозрачность, тем больше у нас шансов потребовать прозрачности и подотчетности, и это начинается с того, что мы знакомимся с работами таких экспертов, как О’Нил. Эту книгу нужно читать не только тем, кто работает в области науки о данных, машинного обучения или других смежных областях, но и всем. Если вы занимаетесь моделированием, эта книга должна побудить вас уменьшить масштаб, подумать, стоят ли люди за цифрами, которыми манипулируют ваши алгоритмы, и подумать о таких важных вопросах, как цели, стоящие за вашими кодами. Почти каждый в большей или меньшей степени является частью растущего мира «экономики данных». Чем больше мы осознаем темную сторону этих машин, тем лучше мы подготовлены к тому, чтобы задавать вопросы и требовать ответов от тех, кто стоит за машинами, решающими нашу судьбу.

ТЕМНАЯ СТОРОНА БОЛЬШИХ ДАННЫХ — КАК МАТЕМАТИЧЕСКИЕ МОДЕЛИ УВЕЛИЧИВАЮТ НЕРАВЕНСТВО

Вопросы по теме