Каждый год примерно в это время мы празднуем вручение премии «Оскар» и наблюдаем, как голливудские мегазвезды идут по красной дорожке в гламурных нарядах. В этом году я остановился, чтобы спросить, как Голливуд относится к искусственному интеллекту и машинному обучению. Голливуд не только является мягкой силой, которая имеет тенденцию быть зеркалом США для остального мира, но также влияет на наши взгляды и коллективное осознание определенной технологии, ее проблем и того, как мы расставляем приоритеты в их решении.

В то время как Голливуд был в состоянии предсказать многие из наших нынешних научных прорывов (вспомните портативный коммуникатор в «Звездном пути III» или носимые устройства в «Звездных войнах»), киноиндустрия утверждает, что самая большая опасность ИИ — это роботы-гуманоиды, захватившие наш мир. В многочисленных фильмах показано, как робот перехитрил человека, обманом завладел им. Хотя это может быть или не быть правдой в далеком будущем (по крайней мере, пока у робота не разрядится «мощь» батареи!), Голливуд упустил большую и более непосредственную опасность ИИ: это поляризация. Воздействие поляризации гораздо шире, и, возможно, она может стать очень заманчивым сюжетом для фильма, достойного «Оскара». В этой статье я расскажу о двух основных источниках поляризации в ИИ и машинном обучении, а именно о предвзятости данных и персонализированных моделях машинного обучения.

Голливуд упустил большую и более непосредственную опасность ИИ: это поляризация.

Что такое поляризация?

Поляризация — это социальное явление, которое происходит, когда возникают два взгляда, которые разъединяют людей — как два противоположных магнита (аналогично поляризации в магнетизме) — что приводит к изменению отношения между людьми в каждой полярной группе [1]. Это хорошо изученное социальное явление в психологии. В то время как достижения в области технологий изначально обещали лучшие и более быстрые средства связи, позволяющие установить более тесные связи между людьми, некоторые из этих технологий могли привести к прямо противоположному, то есть к социальной поляризации. Львиную долю этого неприятного последствия могут сыграть два конкретных метода машинного обучения: персонализация и предвзятость данных.

Печальное последствие персонализации машинного обучения

Персонализация машинного обучения — это технология, которая позволяет приложению отображать только релевантную для вас информацию, ранжированную в порядке актуальности. Например, на Amazon вы увидите книги, которые вам, скорее всего, будет интересно прочитать и купить. В Google вы увидите рекламу, на которую вы с большей вероятностью нажмете и купите. На Facebook вы увидите сообщения, с которыми, скорее всего, будете взаимодействовать через «лайки» или «впечатления». Персонализация оказалась большим подспорьем для нас, как для пользователей с ограниченным временем и вниманием (в конце концов, у кого есть 2 часа, чтобы просмотреть тысячи продуктов на Amazon, чтобы найти именно то, что им нужно), а также отличный бизнес для крупных компаний в виде увеличения продаж и лучшего удержания пользователей.

Непреднамеренно персонализация ввела эффект эхо-камеры. Это результат того, что мы видим только тот контент, который имеет отношение к нам, и взаимодействуем с людьми, которые думают так же, как мы. Кроме того, чем больше вы будете взаимодействовать с контентом, чем более эффективными станут модели персонализации ML, настраивая контент больше для вас, тем более заметным будет эффект эхо-камеры. В результате это быстро становится порочным кругом: больше персонализации, больше взаимодействий, больше эффекта эхо-камеры и больше поляризации.

Персонализация создает порочный круг большей персонализации, большего количества взаимодействий, большего количества эхо-камер и большей поляризации.

Будущие последствия предвзятости данных ужасны!

Предвзятость данных — еще один источник опасности, который усиливается моделями машинного обучения, что приводит к еще большему эффекту поляризации. Позвольте мне объяснить, как! Сегодня мы создаем интеллектуальные модели машинного обучения, передавая им огромное количество данных, чтобы позволить модели обучаться и иметь возможность предсказывать, как будут выглядеть данные в будущем. Эти данные мы называем «тренировочной выборкой». По определению модель будет изучать только представленные ей данные, вне зависимости от того, предвзяты они или нет, по сравнению с человеческим мозгом, который может обобщать или рационализировать эти обучающие данные.

В результате этот конечный обучающий набор обучает модель ML любым включенным в них смещениям, что приводит к предвзятой модели ML. Эта проблема важна, потому что она повлияет на все приложения этой модели в реальной жизни. Давайте рассмотрим два приложения: ИИ при найме и ИИ в правоохранительных органах.

ИИ в найме: модели машинного обучения были разработаны для изучения связи между характеристиками людей и их потенциальной корпоративной эффективностью. Модели были обучены на данных о сегодняшней рабочей силе, которые включают информацию о поле, этнической принадлежности, образовании и т. д. Например, согласно этой статье журнала Fortune 2017 о разнообразии: По сравнению с демографией всей занятой рабочей силы, … Латиноамериканцы/а и чернокожие руководители недопредставлены на 9 и 13 процентных пунктов. В результате, когда мы используем эти данные для обучения модели машинного обучения, она будет генерировать прогнозы, которые отдают предпочтение одним расовым и гендерным профилям по сравнению с другими. Это может привести только к дальнейшему увеличению разрыва, ухудшению эффекта эхо-камеры и созданию еще одного порочного круга большего количества предубеждений.

ИИ в полиции и правоохранительных органах: в апреле 2018 года в Wall Street Journal появилась статья, описывающая, как полицейские управления США добавляют возможности ИИ к видеонаблюдению и нательным камерам. Помимо проблем с конфиденциальностью, можно предвидеть, что предвзятость данных, используемая для обучения моделей ML в этом приложении, может привести к некоторым катастрофическим результатам, вызывая дискриминацию, расовое профилирование и виктимизацию определенных групп по вине моделей ML. Это может только усугубить эффект поляризации и усилить эффект эхо-камеры.

Количество примеров того, как предвзятость в данных может привести к большей поляризации, огромно. Это результат широкого спектра ожидаемых применений инструментов машинного обучения и искусственного интеллекта в различных областях и отраслях.

Предвзятость данных в приложениях машинного обучения правоохранительных органов может только усугубить эффект поляризации.

Итак, что мы можем сделать с машинным обучением и поляризацией?

Наиболее важным шагом в решении любой проблемы является повышение осведомленности о ней. В этом случае связь между моделями машинного обучения и ее влияние на поляризацию необходимо подчеркнуть как для общественности, так и для инженеров и специалистов по машинному обучению. Голливуд может сыграть здесь значительную роль в освещении этой проблемы.

Во-вторых, из-за технической природы обеих сторон проблемы (характеристики и взаимодействие моделей машинного обучения со стороны технологии и социальная поляризация со стороны социальной психологии) связь нелегко установить без междисциплинарного сотрудничества и исследования с обеих сторон. Необходимо направить больше грантов и финансирования на решение этой проблемы с точки зрения междисциплинарных исследований.

В-третьих, необходимо провести дополнительную работу по антиполяризационным методам машинного обучения, чтобы текущие модели могли устранять предвзятость данных и влияние персонализации. Ни для кого из экспертов по искусственному интеллекту не секрет, что предвзятость в моделях машинного обучения является одной из самых важных границ для области исследований машинного обучения и его производства.

Машинное обучение, Голливуд и будущее цифровой трансформации

ИИ станет важным компонентом цифровой трансформации многих отраслей. Однако, если мы не сможем решить его проблемы в виде предвзятости данных и влияния персонализации, доверять моделям ИИ будет труднее. Пока мы смотрим церемонию вручения Оскара и чествуем победителей, я приглашаю всех вас задать больше вопросов о том, что Голливуд может сделать, чтобы повысить нашу коллективную осведомленность об опасностях ИИ и машинного обучения, и о том, как мы можем работать вместе, чтобы решить их.

Ламия Юсефф, доктор философии. ’09, ученый-компьютерщик (MIT, Stanford, UCSB) и бизнес-лидер (x-facebook, Microsoft и Google). В настоящее время она является научным сотрудником Sloan в Стэнфордской высшей школе бизнеса (GSB) и приглашенным научным сотрудником в области искусственного интеллекта / машинного обучения на факультете компьютерных наук Стэнфорда. Мнения, выраженные в этой статье, являются ее собственными и не отражают точку зрения ее бывших работодателей.