«Исследование было одобрено IRB»: Gayface AI, шумиха вокруг исследований и повсеместная этика данных ...

Подобно тому, как это изменило методы науки и техники, инструменты крупномасштабной аналитики данных вызвали серьезные сдвиги в том, как мы судим об этических последствиях научных исследований. И наши нынешние методы не успевают. Исторически этика исследований вдохновлялась основным набором вопросов, например, как решить, оправдан ли научный эксперимент с учетом потенциальных рисков и выгод для изучаемых людей или для общества в целом? Как вы отслеживаете, кто несет эти риски, а кто получает выгоду?

Теперь мы сталкиваемся с проблемой того, что происходит с методами, которые мы разработали для ответа на эти вопросы, когда количество людей, затронутых исследованием, на несколько порядков превышает историческую норму.

Когда мы говорим об этике исследований, мы, в конечном итоге, обращаемся к двум различным вопросам: 1) каковы правильные / идеальные нормы для оценки экспериментальных методов, и 2) какое определение принимают учреждения (такие как IRB), которым поручено с регулированием исследователей и защитой субъектов исследования от вреда. Оказывается, слишком часто, когда мы обсуждаем науку о данных, ответы на эти два вопроса расходятся, что приводит к ситуации, когда мы не можем эффективно отслеживать и смягчать этические и социальные последствия исследования. Таким образом, когда специалисты по данным ссылаются на обзор IRB как на свидетельство этических методов, они неправильно понимают цель и объем IRB.

Недавний спор по поводу допечатной статьи (опубликованной в журнале Personality and Social Psychology) Михала Косински и Илуна Ванга из Стэнфорда иллюстрирует ряд новых потенциальных рисков. науки о социальных и поведенческих данных. Что делает это исследование настолько интересным с точки зрения исследовательской этики, так это то, что как ученые, так и их критики соглашаются, что было бы очень неприятно, если бы их результаты применялись в дикой природе; когда они не согласны, является ли исследование оправданным в этих условиях. Это исследование находится как раз в разрыве, открываемом аналитикой данных между идеальными этическими условиями для научных экспериментов и решениями, принимаемыми учреждениями, которым поручена защита объектов исследования.

В своей статье Глубокие нейронные сети более точны, чем люди при обнаружении сексуальной ориентации по изображениям лиц, Косински и Ван описывают исследование машинного обучения, в котором они обучили глубокую нейронную сеть сортировать человеческие лица в соответствии с их сексуальными предпочтениями. с большей точностью, чем у их контрольной группы сортировщиков людей. * Проще говоря, они построили ранний прототип гайдара с искусственным интеллектом, используя готовые компоненты машинного обучения и общедоступные данные. Многие пользователи называют это ИИ-гейфейсом, используя жаргонный термин для обозначения преувеличенного стереотипного выражения лица мужчины-гея.

Что делает это исследование таким интересным с точки зрения исследовательской этики, так это то, что ученые и их критики сходятся во мнении, что было бы очень неприятно, если бы их результаты применялись в дикой природе; когда они не согласны, является ли исследование оправданным в этих условиях.

Пресса восприняла это, поскольку она ловко затрагивает ряд культурных проблем: конфиденциальность в социальных сетях, искусственный интеллект и сексуальные различия. Вот пример освещения с середины сентября 2017 года, когда газета впервые была замечена прессой:

Достижения в области искусственного интеллекта используются для выявления признаков сексуальности, в The Economist
Насколько хорош твой Гайдар? Насколько хороша ваша наука? , В Inside Higher Ed
ЛГБТ-группы осуждают« опасный ИИ, который использует ваше лицо для угадывания сексуальности», в The Guardian
Исследователи используют инструменты распознавания лиц для предсказания сексуальной ориентации. ЛГБТ-группы недовольны в Washington Post Post.
Это исследование искусственного интеллекта, которое утверждает, что угадывает, гей ты или натурал, ошибочно и опасно, в Mashable

Скептики больших технологий и машинного обучения вместе с защитниками ЛГБТ выразили серьезные сомнения по поводу этого исследования. Существует ряд основательных методологических критических замечаний по поводу исследования Косински и Ванга, в первую очередь от Греггора Маттсона из Оберлинского колледжа и Карла Бергстрома и Джевина Уэста из Блог Calling Bullshit. Кроме того, ЛГБТ-группы, такие как GLAAD и HRC, поспешили указать на последствия методологических слепых пятен в статье.

Здесь я хочу исследовать особо токсичное зелье вокруг исследовательской этики и исследовательской шумихи, которое в значительной степени не было освещено в другом месте, потому что оно показывает, как правила этики исследований борются с методами и последствиями повсеместного исследования данных. В частности, наука о данных может использовать в качестве оружия общие знания о популяции (например, алгоритмы могут предсказать сексуальную ориентацию по фотографиям с X степенью достоверности) в качестве источника воздействия на жизнь конкретных людей за пределами исследования (например, алгоритм говорит, что этот человек гомосексуален). Общие знания о популяции являются отличительным признаком исследования в наших правилах этики, но вред, причиненный людям за пределами исследования, полностью невидим для тех же правил.

Исследование

Косински и Ван описывают исследование, в ходе которого они получили 35 326 «общедоступных» фотографий 14 776 человек, зарегистрированных на популярном американском сайте знакомств, на котором пользователи идентифицируют себя как ищущие гетеросексуальных или гомосексуальных романтических отношений. Половина фотографий сделаны людьми, ищущими гетеросексуальных отношений, половина - людьми, ищущими гомосексуальные отношения. Лица были отсортированы по гендерным категориям, примерно половина мужчин и женщин. Исследование было ограничено лицами европеоидной расы из-за того, что, по утверждениям авторов, не было других расовых / этнических групп в доступной обучающей выборке. (Уменьшение разнообразия лиц также увеличивает вероятность того, что машина определит сильный узор.) Лица контролировались с учетом переходных факторов, таких как освещение, наклон и наклон головы, а также была ли фотография большой и достаточно полной. Сортировка машины была подтверждена сотрудниками Mechanical Turk, которым было поручено отсортировать фотографии по этнической принадлежности и полу, используя критерии, которые были бы знакомы современной американской аудитории. Косински использовал свои фотографии и фотографии своей девушки в качестве прототипов белых мужских и женских лиц, лицо Барака Обамы в образе Черного, хотя он и двурасовый, и стоковую фотографию человека, «явно» латиноамериканца.

Исследователи разделили выборку на 20 подмножеств, зарезервировав одну для набора тестов, а остальные использовали для обучения глубокой нейронной сети с открытым исходным кодом, оптимизированной для распознавания лиц, под названием VGGFace. Установив самоидентифицированную сексуальную ориентацию в качестве зависимой переменной и 500 черт лица в качестве независимых переменных, они обучили алгоритм распознавать модели черт лица самоидентифицированных гетеросексуалов и гомосексуалистов. Опять же, с привлечением работников Mechanical Turk, тот же набор тестов был предложен людям-тестерам для определения сексуальной ориентации только на основе фотографий лиц.

Когда алгоритм, разработанный на основе обучающего набора, был использован на тестовом наборе, его прогнозы о сексуальной ориентации были точными в 81% случаев для мужчин и в 71% случаев для женщин. Когда алгоритму было предоставлено 5 разных фотографий одного и того же лица, точность алгоритма увеличилась до 91% и 83% соответственно. Судьи MTurk оказались значительно менее точными: 61% для мужчин и 54% для женщин. Помня о том, что 50% точности - это то, чего вы ожидаете от случайных предположений при представлении бинарных опционов, оказывается, что неподготовленные люди не так уж хороши в оценке сексуальной ориентации только по мимическим сигналам, и что обученные машины лучше, но не идеальны. Более того, машина работала намного хуже, когда она не выбирала между двоичными файлами с одним человеком, известным как гомосексуалист, и другим, известным как гетеросексуал, а, скорее, должна была принимать решение по одному лицу за раз.

Это вкратце то, что продемонстрировало исследование: неподготовленные люди значительно менее точны, чем обученный алгоритм компьютерного зрения, в распознавании паттернов в структурах лица, коррелирующих с самоидентифицируемыми сексуальными предпочтениями среди искусственно ограниченной группы людей.

Претензии

В конечном итоге основные результаты исследования интересны, но скромны. Причина, по которой это исследование было взрывоопасным, особенно для прессы, - это явные и неявные предположения о внутренней природе сексуальной ориентации.

Как сказал мой коллега по PERVADE Мэтт Биц, поиск научного гайдара имеет долгую историю. Научный гайдар мог бы работать только в том случае, если бы были внутренние признаки, которые обеспечивают сигнал - гены, морфология, биохимия и т. Д. - сильно коррелированные с сексуальной ориентацией, которая в противном случае наблюдалась бы только как поведение. Некоторые ученые давно были уверены, что сексуальная ориентация настолько важна, что должен быть сигнал, чтобы ее можно было обнаружить (цитируемая выше запись в блоге Маттсона содержит краткую историю этого явления, а эта обзорная статья, процитированная Косински и Ванга, является исчерпывающим посмотрите исследования причин гомосексуализма). Найдите сигнал, и, скорее всего, его можно отследить. Найдите два коррелированных сигнала, и тогда у вас будет довольно надежное причинно-следственное утверждение. Примечательно, что поиск научного гайдара часто принимает форму поиска того, что отличает гомосексуалистов, а не того, что заставляет всех людей вообще иметь сексуальную ориентацию.

Попутно авторы методологически уменьшают сложность и разнообразие биосоциальных феноменов, которые они, по их утверждениям, изучают: пол, сексуальные предпочтения и морфологию лица. Такие методологические моменты могут показаться отклоняющимися от интересов этики исследования на людях, но они имеют прямое следствие для того, как было построено исследование, и его потенциальные последующие эффекты. Контроль таких переменных, безусловно, является законным подходом к эмпирическим исследованиям, но он должен заставить ученых снизить значение своих результатов. Требуется много концептуальной и эмпирической работы, чтобы свести сложное явление, такое как сексуальное предпочтение и гендер, к бинарной зависимой переменной, а затем восстановить ее снова, чтобы сделать хотя бы ограниченное обобщаемое утверждение о природе сложного явления .

Вместо этого Косински и Ван стремятся к забору, утверждая, что их исследование поддерживает одну из правдоподобных теорий о биологических причинах сексуальной ориентации: теория пренатальных гормонов (PHT). PHT считает, что сексуальная ориентация определяется, по крайней мере, частично, уровнем андрогенов, которым плод подвергается внутриутробно. Типичный способ сформулировать это так: низкий уровень андрогенов вызывает гомосексуальность (определяемый как гендерная атипичность) у плодов мужского пола, а высокий уровень андрогенов вызывает гомосексуальность у плодов женского пола. PHT - это недоказанная, но полностью распространенная теория о биологических корнях сексуального предпочтения. Поскольку известно, что андрогены влияют на лицевые структуры в процессе развития плода (и когда взрослые принимают тестостерон), вполне вероятно, что лицевые структуры могут быть машиночитаемым сигналом сексуального предпочтения по общей причине.

Таким образом, основная предпосылка статьи Косински и Ванга, хотя и не сформулированная явно, заключается в том, что если сложное программное обеспечение для распознавания лиц может соотносить тонкие структуры лица с сексуальной ориентацией с разумной степенью точности, то имеется поддержка общей внутренней причины как для лица, так и для лица. структура и сексуальная ориентация, т.е., PHT (см. диаграмму 1). Несмотря на их утверждения об обратном в примечаниях автора, документ сохраняет свою целостность только в том случае, если они хотя бы подразумевают, что глубокая нейронная сеть нашла следы неотъемлемой основы сексуальных предпочтений человека.

Но действительно ли они делают работу по созданию этого уменьшенного явления (ИИ иногда может соотносить лицевые структуры с бинарными категориями сексуальной ориентации) в поддержку глобального объяснения сексуальной ориентации (пренатальное воздействие андрогенов определяет сексуальную ориентацию)? Короче нет.

Самое простое объяснение того, почему нет: в этой статье не проводились исследования в области эмбриологии, биохимии или социальной психологии.

Фактическое исследование, проведенное в этой статье, утверждает, что коррелирует обнаруженные машиной структуры лица мужчин и женщин бинарного пола европеоидной расы с самоидентифицируемой бинарной сексуальной ориентацией (1. На диаграмме 1). Тем не менее, удивительное количество статей и последующих публикаций в прессе сосредоточено на утверждениях о PHT (2. в диаграмме 1). Честно говоря, авторы осторожно используют в статье терминологию «соответствует PHT», которая является надлежащим образом хеджируемым требованием. С другой стороны, для исследовательского проекта, который не измерял ни одного микрометра человеческой крови (но изучал привычки ухода за волосами на лице и бейсболки), в их статье используется удивительное количество чернил, обсуждая уровни андрогенов. Логично, что единственный способ, которым ИИ гейфейса указывает на внутренние черты, а не на временные факторы, - это ссылка на биологию, но в статье не представлены биологические исследования. То, что исследование с использованием глубоких нейронных сетей для анализа данных социальных сетей делает любые заявления - даже если они строго хеджированы - о внутренних причинах сексуального поведения людей, должно вызывать удивление.

«Он прошел IRB»

В статье, интервью и социальных сетях авторы поднимают призрак дискриминации в мире пост-приватности как этическое оправдание своего исследования. В разделе общего обсуждения статьи они пишут:

Такие картинки часто легко доступны; Например, изображения профилей Facebook, LinkedIn и Google Plus по умолчанию являются общедоступными и могут быть доступны любому пользователю в Интернете. Наши результаты показывают, что такие общедоступные данные и традиционные инструменты машинного обучения могут быть использованы для создания точных классификаторов сексуальной ориентации. Поскольку большая часть сигнала, по-видимому, обеспечивается фиксированными морфологическими особенностями, такие методы могут быть использованы для определения сексуальной ориентации без согласия или ведома человека. …

Некоторые люди могут задаться вопросом, следует ли публиковать такие результаты, чтобы они не вдохновили то самое приложение, против которого мы предупреждаем. Мы разделяем эту озабоченность. Однако, поскольку правительства и компании, похоже, уже внедряют классификаторы на основе лиц, нацеленные на обнаружение интимных черт (Chin & Lin, 2017; Lubin, 2016), существует острая необходимость в информировании политиков, широкой общественности и гей-сообществ. рисков, с которыми они могут уже столкнуться. Задержка или отказ от публикации этих результатов может лишить людей возможности принимать превентивные меры, а лиц, определяющих политику, - возможности принимать законы для защиты людей.

Другими словами, Косински и Ван были заинтересованы в проведении этого исследования не для создания инструментов машинного обучения для дискриминации, а для того, чтобы показать, что стандартные инструменты машинного обучения могут использоваться для облегчения дискриминации, поскольку данные из Интернета раскрывает врожденные, личные качества, которые мы не можем скрыть. С одной стороны, банально предсказуемо, что последствия наблюдения с помощью машинного обучения непропорционально сильно лягут на демографические меньшинства. С другой стороны, квир-люди вряд ли нуждаются в учёных, изучающих их подбородки и прически, чтобы согреть их по этому поводу. Они всегда это знали.

В качестве примера того, как такой инструмент может пойти не так, как надо, рассмотрим легкость, с которой плагин gayface может быть включен в новые таможенные процедуры с использованием искусственного интеллекта в аэропортах Дубая, страны, где гомосексуальные действия по обоюдному согласию караются тюремным заключением. Или как правительство Чечни могло использовать алгоритм гейфейса, чтобы заманить в ловушку и изгнать гомосексуалистов с помощью камер наблюдения. И, как говорит Мэттсон, есть много причин для беспокойства по поводу того, что полиция туалетов ближе к дому использует ИИ для унижения и преследования трансгендерных людей.

Косински, похоже, осознает эту угрозу и, к его чести, не выпустил алгоритм gayface в качестве инструмента с открытым исходным кодом (в отличие от его предыдущих кистей с публичной полемикой). Действительно, одним из самых интересных аспектов спора о гейфейсах является то, что авторы и их критики сходятся в одном главном пункте: наиболее правдоподобные варианты использования созданного ими инструмента этически ужасны. Тем не менее, они расходятся во мнениях относительно того, означает ли это, что исследование служит эффективным предупреждением о возможном вреде в будущем, или же оно само по себе является этическим упущением.

Так является ли их предположение, что это исследование необходимо, потому что оно действует как предупредительный сигнал, действительно этически оправданным? Здесь первостепенное значение приобретает методология исследования и правила этики.

На титульном листе препринта авторы отмечают: «Исследование было одобрено IRB [Institutional Review Board] в Стэнфордском университете». В приведенном ниже обмене мнениями об этических обоснованиях исследования в Твиттере Косински снова ссылается на одобрение Стэнфордского IRB:

Означает ли это, что исследование этично? Нисколько. Как я утверждал ранее (1, 2, 3), регулирование исследовательской этики в форме университетских IRB плохо подходит для исследования методов науки о данных.

Основная миссия IRB - защищать отдельных субъектов исследования от потенциального вреда, причиняемого им методологиями исследования. Общее правило - федеральный закон США, регулирующий то, как IRB должны регулировать исследования с участием людей - вступает в силу только тогда, когда методология исследования удовлетворяет двум условиям: 1) исследование создает обобщаемые знания из наборов данных, содержащих новые и закрытые данные, и 2) получение этих знаний. данные требуют вмешательства в жизнь человека (интервью или психологический эксперимент) или тело (забор крови или лекарство) таким образом, чтобы это представляло больше, чем обычные повседневные риски. Эти предположения имеют смысл при использовании традиционных методов исследования: вам не нужен надзор за этикой, если вы изучаете анонимные данные государственной переписи, но вам, вероятно, нужен надзор, если вы используете тактику обмана в психологическом исследовании чувствительных черт личности. Более того, IRB законодательно запрещено рассматривать последующие последствия для людей вне исследования. Им строго поручено контролировать риск для отдельных участников исследования, связанный с предлагаемыми методами исследования.

Широко распространенные наборы данных кардинально меняют ландшафт исследовательской этики. Изменились методы исследования и риски, но не изменились правила.

Широко распространенные наборы данных кардинально меняют ландшафт исследовательской этики. Изменились методы исследования и риски, но не изменились правила. Подавляющее большинство исследований, в которых так или иначе используются «большие данные», не подпадают под сферу компетенции IRB, потому что 1) они не создают новые данные, а используют существующие данные в качестве обучающей выборки; 2) данные, которые он использует, считаются общедоступными, включая данные, которые можно приобрести, одолжить или получить в интернет-сервисах, таких как Facebook или OkCupid; и 3) он не требует какого-либо контакта («вмешательства») с лицами, данные которых используются.

Хотя мы не можем знать наверняка, пока Стэнфорд не выпустит свое приложение IRB (которое, как правило, никогда не просматривается широкой публикой), то, что Косински имеет в виду, когда говорит, что «исследование было одобрено IRB», вероятно, просто то, что IRB решил, что его исследования не создают новые данные таким образом, чтобы это представляло риск для отдельных субъектов исследования. Что технически правильно, потому что нет никакого дополнительного риска для людей, чьи изображения лиц были анонимно использованы в исследовании. В конце концов, они уже заявили о себе «публично» и выложили свои фотографии на сайт знакомств.

ЭСО специально уполномочены избегать даже рассмотрения типов вреда, который представляет это исследование, которое имеет последующие последствия для групп людей или общества в целом. Распространенные данные того типа, на который они опираются, отличаются от типа, исторически знакомого IRB. Инструменты машинного обучения предназначены для использования общих знаний о закономерностях в популяции, чтобы впоследствии повлиять на отдельных людей. Это противоположно традиционной схеме потенциальных рисков и преимуществ в исследованиях на людях, когда изучение людей приводит к потенциальному воздействию на популяции. Машинное обучение можно использовать способами, которые традиционные психологические или социологические исследования просто не могут.

Таким образом, специалисты по обработке данных должны знать, что, когда их исследование «одобрено IRB», это не означает, что «исследование этично». Скорее, это означает, что любой вред, который может нанести ваше исследование, вполне может быть невидим для процесса проверки IRB.

Таким образом, специалисты по обработке данных должны знать, что, когда их исследование «одобрено IRB», это не означает, что «исследование этично». Скорее, это означает, что любой вред, который может нанести ваше исследование, вполне может быть невидим для процесса проверки IRB.

На мой взгляд, эти риски науки о данных значительно возрастают, когда сообщаемые результаты выходят за рамки параметров методов исследования. Косински и Ван значительно увеличивают вероятность того, что их работа будет использована против людей, связывая их работу с заявлениями о биологических корнях сексуального поведения. На самом деле из их статьи не ясно, почему PHT вообще является необходимым компонентом проекта. Это определенно не является компонентом их эксперимента по машинному обучению, поскольку они фактически не измеряют какие-либо явления, которые можно было бы использовать для эмпирического подтверждения или опровержения PHT.

Независимо от того, обоснованы ли они эмпирически или нет, утверждения о происхождении сексуального поведения в биологии имеют важное значение для жизни многих людей, и, безусловно, возможно, что их далеко идущие выводы будут использованы против отдельных лиц при автоматизированном принятии решений. Как заявил Косински, подходящим местом для защиты прав личности является политика, а не технологии. Но это не означает, что риски исследования находятся в допустимых пределах. И это, конечно, не дает оснований полагаться на суждение IRB, специально разработанного для того, чтобы не учитывать эти виды вреда.

Советы для специалистов по данным, которые хотят этично подходить к своей работе:

IRB часто не подходят для оценки наиболее значимых последствий работы в области науки о данных.
Тем не менее, IRB часто необходимы (но не достаточны).
Исследования в области науки о данных необходимо расспросить о последующих последствиях, потому что это тип вреда, который, скорее всего, причинен методами.
Если есть возможные вредные последствия, которые привлекут внимание общественности, дайте совет, как их избежать. Не поднимайте руки вверх и заявляйте, что мы живем в обществе, где пост-конфиденциальность отсутствует, и люди несут ответственность за защиту себя от злонамеренного использования данных. Этические исследования и дизайн - это всегда распределенная ответственность.
Если ваша работа включает сортировку людей по чувствительным демографическим категориям, обсудите исследование с этими сообществами и их защитниками и послушайте, что они говорят. Запрашивание их вклада подразумевает ответственность отнестись к этому серьезно и изменить или, возможно, отказаться от вашей исследовательской программы, чтобы защитить их так, как они просят.
Если ваша работа содержит или подразумевает эмпирические утверждения о других областях знаний, включите соавторов из этих областей.
Все ссылки взяты из версии, опубликованной в репозитории препринтов OSF 10.09.2017. Это версия, доступная, когда пресса только начала обсуждать исследование. Обновленные версии были опубликованы позже (самая последняя версия доступна здесь), но ни одна из них не меняет существенно какие-либо заявления, сделанные в данном документе.

Эта публикация частично поддержана грантом Национального научного фонда №1704425. Высказанные мнения не отражают точку зрения Национального научного фонда.

«Исследование было одобрено IRB»: Gayface AI, шумиха вокруг исследований и повсеместная этика данных ...

Вопросы по теме