Недавно мне выпала честь выступить на панельной дискуссии о разнообразии в аналитике, организованной Isenberg School of Management в UMass Amherst. Я думал, что обсуждение было очень актуальным и важным, и надеюсь, что это резюме обсуждения и мои последующие размышления будут полезны другим.

Каковы самые большие проблемы, с которыми сегодня сталкивается Diversity in Analytics?

Панель сосредоточилась на двух основных проблемах:

  1. Разнообразие и инклюзивность персонала - это проблема человеческих ресурсов. Как мы можем укомплектовать команды людьми с разным опытом и взглядами?
  2. (Анти) ​​разнообразие и предвзятость в алгоритмах, результатах и ​​системах - это проблема алгоритмической предвзятости и дегенеративных систем. Как мы можем гарантировать непредвзятость алгоритмов? Как определить, есть ли они?

Что касается разнообразия и инклюзивности, я хотел бы направить вас к Нине Балиге, другому участнику дискуссии. Она является соучредителем ‹div› ersity, стартапа, который помогает разным талантам в сфере технологий находить безопасные и инклюзивные компании для работы. (Нина, если вы читаете это, пожалуйста, присоединяйтесь - я так много узнала, слушая, как вы говорите, во время обсуждения, и я остро чувствую отсутствие вашей точки зрения в этом посте.)

Что касается последней темы (Против) разнообразия и предвзятости, отрасль и общественность постепенно осознают множество проблем. Эффекты антиразнообразия / предвзятости только сейчас широко признаются и обсуждаются; Кроме того, эффекты разнообразны - у нас есть пузыри фильтров, эхо-камеры, модели, кодирующие системные ошибки, и алгоритмы, ведущие к дегенеративным системам. У нас нет формализованного метода выявления и исправления этих проблем, и, конечно же, нет процесса, позволяющего сделать это упреждающим образом.

Как личный анекдот, проблема алгоритмической предвзятости не ограничивается передовыми нейронными сетями с глубоким обучением, которые неправильно идентифицируют чернокожих или мощными механизмами рекомендаций, которые в конечном итоге радикализируют зрителей для максимального увеличения времени просмотра. Это может быть так же просто, как алгоритм кластеризации k-средних, который увековечивает отрицательный социально-экономический цикл:
В какой-то момент моей карьеры, занимаясь маркетинговым исследованием, компания, в которой я работал, была нанята государственной лотереей, чтобы найти клиента сегментация. Цель была довольно простой - они хотели определить ключевые цели, чтобы максимизировать отдачу от вложенных в рекламу денег. Мы опросили людей, собрали данные и определили что-то вроде следующих кластеров (моя память не на 100%) на основе поведения при игре в лотерею:

  1. Образован, родился в среднем / высшем классе
  2. Образованный, самодельный средний / высший класс
  3. Менее образованные, бедные, белые
  4. Менее образованные, бедные, меньшинства
  5. Пожилые люди

Если вы посмотрите на лотерею, вы обнаружите, что это подтверждается исследованиями: по каждой характеристике (малообразованный, бедный, меньшинство) человек все менее и менее склонен играть в лотерею в целом; однако по каждой характеристике, ЕСЛИ они играют в лотерею, они играют чаще и тратят больше денег , чем другие игроков. Короче говоря, увеличение доли этих лиц, находящихся в максимально неблагоприятном положении, играющих в лотерею, является самым быстрым способом увеличения продаж лотереи. И, ориентируясь на этих людей, мы призываем их тратить деньги, которых у них нет, на потенциальную выгоду, которую они вряд ли увидят.

Хотя я не могу обсуждать клиента, вот реклама государственной лотереи, которая, похоже, основана на аналогичных исследованиях. И кампания, частью которой является эта реклама, была признана коллегами как лучшая реклама лотереи в США в 2015 и 2018 годах.

И что?

Исследования показывают, что различные команды продемонстрировали способность превосходить средние показатели по отрасли и принимать более правильные решения. Разные команды видят разные точки зрения, поощряя инновации и ускоряя решение проблем.

В конечном итоге проблема алгоритмической предвзятости является важной частью обсуждения этики в науке о данных и пересекается с другими темами, такими как конфиденциальность, анонимность, владение данными и управление, а также монетизация личности. По мере того, как мы углубляемся в одну тему, мы начинаем видеть совпадения с другими.
Так же, как компании, которые приняли разнообразие, видят преимущества в производительности (см. Ссылки выше), те, кто принял решения, основанные на данных, также заметили рост производительности. . Забегая вперед, я утверждаю, что компаниям придется придерживаться этических норм в науке о данных, чтобы сохранять конкурентное преимущество. Несмотря на то, что будут возникать авансовые расходы, их оплата сейчас сократит будущие затраты и время на разработку, повысит безопасность данных, сохранит лояльность клиентов и доверие инвесторов, а также ограничит ответственность:

  • Рассмотрим GDPR и новый австралийский толчок к конфиденциальности данных. Это действия, которые продиктованы общественным желанием обеспечить конфиденциальность данных. Компании, которые не соблюдают правила, сталкиваются с серьезными штрафами.
  • Организации, которые опережают эти требования конфиденциальности и анонимности, будут разрабатывать модели и методы, работающие в рамках законодательных ограничений, и будут иметь явное преимущество перед компаниями, стремящимися наверстать упущенное.
  • Google подвергся невероятному количеству плохого PR из-за проблем с классификацией и маркировкой изображений, а также из-за присущих им проблем с пузырьками фильтров и эхо-камерами. Постоянные проблемы, подобные этим, ограничивают доверие инвесторов - и Google признал это и создал группу по этике для изучения этих проблем.
  • Vox недавно сообщил об академическом исследовании, которое показало, что беспилотные автомобили с меньшей вероятностью распознают черных пешеходов - и, следовательно, с большей вероятностью могут их сбить. Это пример потенциальной ответственности, которую компании могут оставить открытыми, если не решат проблему алгоритмической предвзятости.

Кто в этом пространстве лидеры?

Нина отметила, что некоторые компании очень хорошо создают структуру и культуру, которые поощряют разнообразие и инклюзивность; к сожалению, я не помню конкретных названий этих компаний. Я помню, что она сказала, что компании, добившиеся лучших результатов (1) отслеживали свои результаты и публиковали их, и (2) обычно получали полномочия от высшего руководства.

Что касается проблемы алгоритмической предвзятости, большинство известных мне идейных лидеров - женщины (что само по себе интересно):

Какие у нас есть решения?

Я бы сказал, что нынешние проблемы с алгоритмической предвзятостью отчасти вызваны неоднородностью команд. Отношения двигайся быстро и ломай и проси прощения, а не разрешения, связанные с быстрорастущей отраслью науки о данных на ранних этапах цикла хайпа Gartner, похоже, совпадают с позицией привилегий белых мужчин.

Независимо от вашего отношения к привилегиям, факт остается фактом: команды в области технологий (и, следовательно, в области науки о данных) не отличаются друг от друга по отношению к населению. Таким образом, ищите компании, которые действительно делают разнообразие и инклюзивность частью миссии и культуры компании. Если вы работаете в компании, которая этого не делает, поговорите об этом с руководством вашей компании; или начните работу в сети с менеджментом среднего звена, чтобы создать сеть поддержки. Снова обратитесь к Нине Балиге и ‹div› ersity.

Что касается алгоритмической предвзятости, я не знаю никого, кто нашел бы формальные решения (хотя некоторые люди работают над инновационными инструментами). Вот несколько первых шагов, которые я бы посоветовал:

  1. Рассмотрите свой обучающий набор: репрезентативен ли ваш набор данных для генеральной совокупности или он равномерно распределен? Каковы последствия каждого из них? Присутствуют ли мешающие переменные или непреднамеренные скрытые предубеждения? Если вы используете исторические данные, есть ли исторические точки зрения, которые следует учитывать / которыми следует манипулировать? Пример. Если вы чистите старые газеты, чтобы создать вложения слов, стоит ли беспокоиться о предубеждениях по признаку пола, расы или ориентации?
  2. Учитывайте алгоритмическое намерение: для чего вы оптимизируете? Что будет как побочный эффект, если у вас слишком хорошо получается? Пример. Что произойдет в результате, если вы попытаетесь увеличить время просмотра? Люди склонны к более экстремальным видео?
  3. Отмените парадокс Симпсона и выполните анализ чувствительности: не просто смотрите на результаты в целом, переходите к подгруппам, подверженным риску, и убедитесь, что результаты одинаковы для всех групп. Для кого не работает алгоритм? Что произойдет, если ваши входные данные меняются ежеминутно - изменяются ли результаты по подгруппам неравномерно? Распределяются ли ложноположительные / ложноотрицательные результаты по-разному в каждой подгруппе?
  4. Рассмотрим этическую матрицу: кто заинтересованные стороны? Что их беспокоит? Как мы должны расставить приоритеты в отношении точности / оптимизации с точки зрения заинтересованных сторон и проблем?

Этическая матрица - это структура, заставляющая людей мыслить шире. Строки матрицы включают всех заинтересованных лиц, на которых может повлиять данный алгоритм. Например, в случае алгоритма риска рецидивизма он будет включать судью, он будет включать прокурора, он будет включать ответчика и будет включать в себя широкую общественность.

Затем столбцы матрицы - это то, о чем на самом деле беспокоится каждая из этих заинтересованных сторон. Например, судья будет беспокоиться об освобождении кого-то, кто опасен для общества (ложный отрицательный результат). В то время как подсудимый беспокоится о том, что его могут без надобности наказать за то, что он не делал или не собирался делать (ложный положительный результат). .

Этическая матрица помогает выявить все эти конкурирующие последствия, мотивы и соображения и позволяет специалистам по обработке данных учитывать большее влияние своих разработок.

Спасибо за прочтение! Я хотел бы продолжить обсуждение - что вы думаете и думаете? Какие передовые практики следует внедрять сообществу специалистов по науке о данных?