Ответственное создание продуктов машинного обучения на Google #vGHC Session

Машинное обучение (ML) — одна из самых популярных технологий сегодня, настолько, что это модное слово во всех кругах разработчиков программного обеспечения! Нельзя отрицать, что методы машинного обучения или глубокого обучения почти проникли во все области, с которыми мы соприкасаемся в нашей повседневной жизни, и есть большая вероятность, что неспециалист, на которого воздействует система, может не знать о присутствии здесь действует высшее т.е. искусственный интеллект! В таком мире становится все более важным помнить о том, как создаются эти продукты на основе машинного обучения и разрабатываются ли они этично и беспристрастно.

Карин Шофеггер, менеджер по продукту в Google Research, и Тулси Доши, руководитель отдела Google по ответственному искусственному интеллекту и Ml Fairness Efforts, возглавили эксклюзивную сессию vGHC под названием Создание продуктов машинного обучения, ответственно организованную Google. >. Основные выводы из сессии Карин и Талси заключались в том, что машинное обучение является одним из многих вариантов и что алгоритмы машинного обучения требуют мониторинга на стороне данных, чтобы предотвратить систематическую ошибку.

Машинное обучение — один из многих вариантов!

Когда следует использовать машинное обучение?

  • Когда персонализация может помочь улучшить взаимодействие с пользователем, например, в случае систем рекомендаций для Amazon и Netflix.
  • Когда задача повторяется, ее можно автоматизировать, и такая автоматизация экономит ресурсы.
  • Когда предсказание будущего события имеет ключевое значение для функции, например, будущая цена рейса или будущие прогнозы цен на акции.
  • В некоторых случаях ML также может помочь в обнаружении редких событий, чаще называемых аномалиями, например, обнаружение мошенничества с кредитными картами.

Во всех остальных случаях машинное обучение является лишь одним из многих доступных вариантов, а не золотым стандартом.

Когда не следует использовать машинное обучение?

  • Когда предсказуемость и прозрачность являются ключом к вашему продукту
  • Когда потребности пользователей не меняются, достаточно статической информации
  • Когда пользователи не хотят автоматизации

Системы, основанные на машинном обучении, должны отслеживаться на предмет предвзятости

Машинное обучение, и особенно глубокое обучение, часто называют моделями «черного ящика», потому что очень сложно рассуждать о результатах, которые оно дает. Без понимания, ПОЧЕМУ модель производит дискриминационные результаты, очень трудно смягчить или исправить модель.

Одним из примеров трагических последствий применения черных ящиков является гибель беспилотного автомобиля в мае 2016 года, когда автомобиль стал причиной дорожно-транспортного происшествия из-за того, что система не обнаружила препятствие (белый трактор) на фоне ярко освещенного неба. (https://www.tesla.com/en_GB/blog/tragic-loss).

С быстрым развитием приложений машинного обучения политика еще не догнала, и, следовательно, использование внутренних сдержек и противовесов для аудита усилий организации по машинному обучению будет иметь большое значение для повышения осведомленности специалистов-практиков ИИ о включении этических проверок в формулировку проблемы. при разработке приложений машинного обучения.

На изображении выше показано, как предвзятость может просачиваться на каждом этапе конвейера машинного обучения. В современном мире, основанном на искусственном интеллекте и машинном обучении, чрезвычайно важно не допустить, чтобы эта предвзятость влияла на дизайн продукта и, следовательно, на конечных пользователей. Примером результата этой предвзятости была система, которая классифицировала незападный свадебный наряд как просто человека / людей, в отличие от изображений западного свадебного торжества, которые были соответствующим образом классифицированы как невеста, жених и т. Д.

Решение состоит в том, чтобы гарантировать, что данные, подаваемые в модели, представляют базу пользователей во всех аспектах, таких как разнообразие, инклюзивность, пол, раса, этническая принадлежность и т. д. Понимая, кого включать, также необходимо помнить, кого следует включать. исключать. Например, для сайтов знакомств необходимо учитывать возрастные особенности, а дети младше 18 лет не должны быть частью набора данных.

Этический источник данных — еще одна главная забота инженеров машинного обучения. Большинство сайтов социальных сетей сегодня собирают доступную им информацию в удобное для них время для различных целей. Общие данные, такие как имя, пол, раса и т. д., не так важны. Некоторые из наиболее важных фрагментов информации включают в себя такую ​​информацию, как геолокация, день рождения, политические взгляды и т. д. Эти веб-сайты содержат огромные тексты с подробным описанием их условий, которые пользователи редко читают полностью, не говоря уже о прочтении. Обычно они гарантируют, что мы разрешаем им использовать эту информацию. Мне лично неудобно обновлять такую ​​личную информацию в Интернете и, следовательно, мне неудобно ее использовать. Недавние споры показали, что данные изображения лица из фото- и видеоприложений тайно использовались для обучения алгоритмов распознавания лиц. Это вызывает серьезные опасения по поводу конфиденциальности! Крайне важно помнить, как берутся данные, уведомляются ли пользователи о том, что их данные используются, и как используются их данные.

Продукты машинного обучения работают по-разному для разных пользователей

Основываясь на пользовательских данных и различных атрибутах в разных условиях, модели машинного обучения работают по-разному для разных пользователей. Например, пользователи могут получать разные рекомендации YouTube в зависимости от их возраста, пола, географического положения и т. д. Следовательно, средние показатели могут быть не идеальным критерием для измерения успеха модели, поскольку модель работает по-разному для разных пользователей.

Например, фильм «Унесенные ветром» имеет отличный рейтинг 90% в Google (через IMDB). Но недавно высказанные опасения по поводу того, как фильм распространяет предвзятые стереотипы, не были учтены в этом рейтинге.

Важно не только обслуживать различные группы данных, но и разработать среднюю метрику, которая также будет инклюзивной.

Вопросы, которые следует учитывать при разработке модели продукта на основе машинного обучения

В заключение, помимо многих технических критериев, которые мы должны учитывать при разработке модели на основе ML, вот несколько вопросов, которые следует задать себе, чтобы обеспечить справедливую и этически ответственную модель:

  • Насколько вы прозрачны в своих коммуникациях?
  • Как пользователи могут сообщать об ошибках?
  • Вы тестировали результаты модели с разнообразной группой пользователей?
  • Есть ли у вас оцененные проблемы с конфиденциальностью и доверием?
  • Отслеживаете ли вы результаты своей модели с течением времени?

Дополнительные ресурсы

Вот еще несколько интересных материалов для чтения и информации о проблемах этики и конфиденциальности в машинном обучении:

О писателе:

Дипти Перинедавно получила степень магистра компьютерных наук в Технологическом институте Вирджинии. Она преимущественно работает в области машинного обучения и глубокого обучения. Она твердо верит в интеграцию своих увлечений с их профессией, и, что очень уместно, ее магистерская диссертация основана на применении методов обработки естественного языка и глубокого обучения для распознавания раги в индийской классической музыке. Она любит читать, петь в караоке, рисовать и заниматься йогой, а в настоящее время читает книгу Артура Миллера «Художник в машине».

Пожалуйста, не стесняйтесь обращаться к ней в Linkedin по адресу https://www.linkedin.com/in/deephi-peri/.