В честь Месяца черной истории я хотел написать об успехах и ошибках в машинном обучении, в частности о компьютерном зрении, а также о необходимости иметь большой и разнообразный набор данных.

В этом месяце я начал преподавать в качестве адъюнкт-профессора, что меня очень волнует. Поскольку я преподаю Науку о данных 101, один из выводов, который я хочу, чтобы мои студенты усвоили на их раннем пути к науке о данных, — это ответственность за создание этических моделей и то, как даже крупные компании не понимают это правильно, и насколько это важно. быть частью рабочего класса, который стремится сделать все правильно.

Давайте поговорим о последних достижениях в решении одного из многих алгоритмов машинного обучения, используемых такими технологическими гигантами, как Google, которым в течение многих лет не хватало разнообразия обучающих данных. Недавно я узнал из рекламы, что Google выпустила самую инклюзивную камеру на смартфоне. Говорят, что Google Pixel 6 сделал тысячи снимков, которые сделали их тренировочные данные в 25 раз более разнообразными для их технологии Real Tone. Сравнения, показанные в этой статье WSJ, действительно показывают, что Google Pixel 6 выглядит самым четким и неотредактированным в хорошем смысле; он не осветляет более темную кожу, как Samsung Galaxy S21 на этих фотографиях.

Что касается обучающих данных, их менеджер по маркетингу продуктов при запуске Pixel 6 отметил, что теперь их обучающие данные стали в 25 раз более разнообразными. Я не знаю, сравнивают ли они это с исходными тренировочными данными. Предположим, что с тех пор, как они упомянули, что сделали тысячи снимков, а не десятки тысяч. Допустим, они добавили 9000 фотографий. Это может означать, что первоначально их обучающий набор данных о цветных людях мог исчисляться сотнями. Думали ли они, что смуглая кожа — это биномиальная классификация, где им просто нужны сотни фотографий чернокожих без учета разнообразия оттенков? Когда Fenty Beauty, косметический бренд Рианны, запустил 40 оттенков макияжа и недавно добавил еще 10, что вызвало ажиотаж и переворот (в хорошем смысле) в индустрии макияжа. Люди чувствовали себя более заметными из-за ее бренда косметики, поскольку они поняли, что цвет кожи людей может принимать форму большого распределения оттенков. Трудно представить, что теперь, когда потребности людей в косметике наконец удовлетворены, они вернутся к чему-то менее инклюзивному.

Прежде чем мы обдумаем, сколько выборок данных нам потребуется для поддержки такого распределения оттенков, давайте в общих чертах разберемся, как работает Computer Vision. Подобно нам, алгоритмы компьютерного зрения могут обнаруживать шаблоны, за исключением того, что наш подход и способ, которым компьютер находит шаблон, сильно различаются. Компьютеры выполняют математические операции с пикселями. Пиксели — это наименьшая единица, которая вместе представляет изображение. Пиксели содержат информацию в виде значений в диапазоне от 0 до 255, обозначающих соответственно черный и белый цвета.

Некоторые области компьютерного зрения:

  • Обнаружение краев обнаруживает края изображений. Эта статья демонстрирует математику, лежащую в основе формулы Собеля, чтобы продемонстрировать края, как и видео ниже.
  • Обнаружение объектов применяет ограничивающие рамки к интересующим объектам
  • Сегментация объектов классифицирует все пиксели, принадлежащие каждому классу
  • Классификация изображений применяет метки классификации ко всему изображению. Например, есть ли на этом изображении кошка?

Видео ниже демонстрирует разницу между обнаружением объектов и сегментацией объектов и классификацией изображений.

Один из самых популярных наборов данных классификации изображений, которые они демонстрируют, когда вы начинаете изучать науку о данных, — это набор данных MNIST, который представляет собой большой набор данных рукописных цифр. Ссылочная ссылка также демонстрирует различные алгоритмы и их коэффициенты ошибок при тестировании с 1998 года. Как вы видите в таблице по этой ссылке, только когда мы перейдем к многоуровневым нейронным сетям, различным методам, таким как свертка, и более крупным моделям, тестирование частота ошибок снижается. Классы представляют собой рукописные цифры от 0 до 9. Набор данных для обучения составляет 60 000 образцов, а набор данных для тестирования — 10 000. Это в среднем 6000 примеров каждого числа для обучения.

Хотя можно возразить, технологии и вычисления совершенствуются с каждым годом, и недостаточно просто того, что больше обучающих данных все исправит. Тем не менее, это хорошее начало, а не тяжелая работа по сравнению с продвижением реальной технологии.

Возвращаясь к вопросу, сколько образцов данных нам потребуется, чтобы начать использовать лица людей в качестве входных данных для алгоритмов? Глубокие нейронные сети (ГНС) уже продемонстрировали низкий уровень ошибок* (при правильном использовании). Проблема в том, что для этого требуется очень большой набор данных. Салех Шахинфар, Пол Мик, Грег Фальзон написали: Сколько изображений мне нужно? Хотя это и не о людях, это исследование направлено на понимание того, как размер выборки на класс влияет на показатели производительности модели глубокого обучения для сбалансированных проектов в автономном мониторинге дикой природы. В их исследовании вы увидите, что их частота ошибок снижается по мере увеличения размера их набора данных.

Казалось, что крупному технологическому гиганту с доступом к самым умным людям и ресурсам потребовалось больше минуты, чтобы устранить предвзятость в своих продуктах машинного обучения. В 2015 году, когда технология Google классифицировала изображения чернокожих как горилл, исправление в 2018 году заключалось в том, чтобы полностью удалить ярлык горилл в качестве прогноза. Технология и размер данных — не единственные проблемы, есть еще и этическая проблема. Нам нужно задать себе вопрос: Приносит ли это больше вреда, чем пользы?. Как и в случае с принципом Парето, 20 % усилий дают 80 % результатов. И прямо сейчас ведущие технологические гиганты имеют наибольшее влияние на то, как эта технология будет использоваться. Печально известный инцидент с алгоритмом Rekognition от Amazon, ошибочно связывающим около 30 членов Конгресса с фотографиями вызвал обеспокоенность в мае 2018 года. В последующие годы, начиная с Сан-Франциско, город запретил использование программного обеспечения для распознавания лиц, что ограничило бы правоохранительные органы в использовании это для слежки. Другие города последовали их примеру в следующих областях; Сан-Диего, Портленд, Бостон, Массачусетс и последний штат Вирджиния в июле 2021 года.

Одним из лучших примеров исследований, которые приходят на ум, которые усилили обсуждение пробелов в программном обеспечении для распознавания лиц этих технологических гигантов, особенно среди цветных женщин, является тезис доктора Джой Булоамвини из Массачусетского технологического института Gender Shades. Опять же, проблема, на которую она указала, заключалась в отсутствии данных для обучения. Она обнаружила это при применении классификатора IBM, Microsoft и Amazon к более сбалансированному и разнообразному набору данных изображений людей, который она построила на основе 1270 лиц политиков со всего мира из 3 африканских и 3 европейских стран. В свою диссертацию она включает примеры для демонстрации выборки изображений из набора данных Pilot Parliament Benchmark (PPB), в котором 44% женщин и 47% темнокожих. В отличие от своей диссертации она обнаружила, что наборы данных, используемые для обучения гендерного классификатора технологического гиганта, были непропорционально в основном светлокожими, а самая маленькая группа темнокожих женщин составляла около 4% набора данных.

Когда она применила гендерные классификаторы к набору данных PPB, она обнаружила, что частота ошибок лучшего классификатора в 32 раза выше среди более темных женщин, чем у их более светлых коллег.

Точно так же, как мы, специалисты по данным, выполняем выбор модели, рассматривая различные классификационные оценки, мы также должны рассматривать их в многомерном пространстве, особенно при работе с демографией. В ее диссертации вы найдете пример системы показателей, предложенной доктором Булоамвини для поощрения разнообразия в будущих наборах данных распознавания лиц.

Распознавание лиц имеет варианты использования за пределами правоохранительных органов, таких как биоинформатика, такая как Face ID от Apple. Также есть работа Dr. Rana el Kaliouby, чью работу мне очень понравилось читать в ее последней книге Decoded Girl. Во время своего пребывания в Массачусетском технологическом институте, которая была пионером в области эмоционального ИИ. Изначально ее идея заключалась в том, чтобы дополнить технологии эмоциональным интеллектом, чтобы помочь людям с диагнозом аутизм ориентироваться в социальных взаимодействиях. Людям с аутизмом трудно различать эмоции в социальной среде, и в 2006 году Рана вместе с MIT Media Lab создали умные очки, которые помогают людям с аутизмом определять эмоции человека, с которым они взаимодействуют. В своей книге она рассказала о жонглировании жизнью жены, матери, ученого-компьютерщика, своей компании, исследований и культуры. В одном случае, когда она все это время была на пределе своих возможностей, она попала в автокатастрофу и написала, что было бы полезно, если бы ее машина могла определять ее эмоциональное состояние перед вождением, и это могло бы предотвратить аварию.

Итак, вопросы, которые я оставляю вам, читатель, таковы: как мы можем гарантировать, помимо увеличения обучающих данных, что алгоритмы, используемые в нашей жизни, создаются этично и ответственно? Должны ли мы вообще использовать эту технологию, даже если она возможна? Каковы последствия его использования или неиспользования?