Данные генерируются при каждом цифровом взаимодействии. А благодаря компьютерному зрению и миллионам камер, развернутых по всему миру, мы также можем генерировать данные почти о каждом физическом взаимодействии. Хотя эти устройства могут делать выводы о том, кто вы в мире, достаточно скоро эти камеры смогут определять, о чем вы думаете. Моника Рогати, бывший специалист по данным в LinkedIn, создала простую иллюстрацию того, как данные поступают в ИИ. Нижние четыре из шести этапов — это просто процессы сбора и уточнения данных, подчеркивающие ключевую роль, которую они играют в разработке любого алгоритма. В конечном счете, данные имеют решающее значение. Как Питер Норвиг, директор по исследованиям Google, сказал HBR о лидерстве Google в этой области: У нас нет лучших алгоритмов… у нас просто больше данных. Кроме того, дело не только в количестве данных; качество так же важно. Мусор на входе, мусор на выходе.

Проблемы, связанные с распознаванием лиц

Данные, их источник и разнообразие оказывают глубокое влияние на алгоритмы распознавания лиц. Неспособность включить все категории демографических данных в данные во время обучения приводит к необъективным результатам. Таким образом, количество параметров, таких как оттенок кожи, цвет, пол, возраст и т. д., имеет решающее значение при сборе наборов данных и моделей обучения. Но дело не только в отсутствии разнообразия инженеров; доступные помеченные данные не существуют. Таким образом, даже для крупных фирм было непросто найти решения, свободные от каких-либо предубеждений и одинаково эффективные во всех социальных, этнических и других классификационных категориях. Например, исследование Массачусетского технологического института показало, что системы распознавания лиц Microsoft, IBM и Amazon имеют значительно более низкую производительность при идентификации темнокожих женщин по сравнению с другими полами и этническими группами.

Почему размеченные данные важны

Размеченные данные — это набор данных, которые были помечены или классифицированы и могут быть легко загружены в модель машинного обучения (ML). Например, в распознавании лиц одним из способов обучения является подача модели данных, которые были точно помечены с указанием пола, возраста и этнической принадлежности. Размеченный набор данных будет содержать изображения всех полов с предопределенными метками о том, принадлежит ли конкретное изображение мужчине, женщине или другому полу. Помеченные наборы данных необходимы для контролируемого или частично контролируемого обучения (где помечены только некоторые данные).

Решение проблемы неадекватных данных является приоритетом для любой исследовательской группы и всей отрасли. Разные люди придумали разные способы получения данных из контролируемой среды, разнообразных наборов данных от исследователей из разных университетов и случайного извлечения изображений из Интернета. Более распространенным подходом является последний, поскольку он имеет ограниченную стоимость и теоретически обеспечивает бесконечный запас. Однако это имеет много ограничений.

Во-первых, данные, собранные в результате парсинга, не всегда надежны. Например, распространенный способ получить изображения знаменитостей — ввести их имена в поиск Google и применить алгоритмы распознавания лиц. Это ограничено, поскольку более продвинутым алгоритмам нужно больше, чем просто имя и изображение. Есть много других важных особенностей, из-за которых эти помеченные данные попадают в категорию немаркированных, что делает их бесполезными для обучения и тестирования любых значимых алгоритмов распознавания лиц.

Во-вторых, для более качественных и маркированных наборов данных было много проблем с конфиденциальностью, поскольку данные использовались без согласия вовлеченных лиц. Недавно выпущенный IBM набор данных для исследований подвергся критике, поскольку в наборе данных было более миллиона фотографий, полученных от пользователей Flickr, и ни один из них не спросил их активного согласия. Однако компания настаивает на том, чтобы сделать алгоритмы распознавания лиц более точными и справедливыми для разных социальных групп.

Но наличие большого количества данных также не всегда является решением. Например, в Kairos наличие 100 000 помеченных изображений разных лиц помогает только в качестве основы. Иметь несколько изображений одного человека в разных условиях, под разными углами и с разным выражением лица намного лучше.

Анализ источников данных

Анализ лучших наборов данных с открытым исходным кодом Кайроса предполагает, что большинство из них включают ограниченное количество данных с изображениями, насчитывающими в среднем несколько тысяч. Эти наборы данных в основном составляются исследователями или отдельными компаниями для исследовательских целей, а не для обучения коммерческих алгоритмов. Хотя наборы данных пытаются включить людей из разных слоев общества и этнических групп, им не хватает разнообразия, необходимого для обучения жизнеспособной модели. Однако некоторые наборы данных из Facebook нового поколения, например, снимают эти опасения и становятся все более надежными.

Анализ того, как крупные фирмы получают свои наборы данных, показывает более сложную структуру. Самые продвинутые компании в этой области, а именно Google и Facebook, используют данные, которые доступны им от их соответствующих пользователей, и маркируют их, используя частично контролируемое обучение или краудсорсинг.

Однако усиление создания и применения законов о конфиденциальности угрожает устойчивости этой практики, и будет становиться все труднее использовать данные так, как они используются сейчас. Например, в соответствии с Общим регламентом по защите данных в Европе фотографии людей считаются «конфиденциальной личной информацией», если они используются для подтверждения личности человека. В США некоторые штаты также следуют новому соглашению, например Закону штата Иллинойс о конфиденциальности биометрической информации, который запрещает сбор, хранение и обмен биометрической информацией без письменного согласия человека. Это определение включает сканирование радужной оболочки, а также геометрию лица.

Очевидно, что законы, вопросы конфиденциальности, а также качество наборов данных обеспечат наличие альтернативного способа сбора или, возможно, создания большего количества более разнообразных наборов данных.

Могут ли генеративно-состязательные сети стать решением?

Генеративно-состязательные сети (GAN) — это тип генеративной нейронной сети, способной эффективно учиться на существующем наборе данных и воспроизводить аналогичные точки данных (например, изображения лиц при распознавании лиц). Ранее такие методы, как искусственное введение гауссова шума, использовались для создания большего количества наборов данных, но эти методы имели свои ограничения, которые можно преодолеть с помощью GAN.

GAN состоит из двух отдельных нейронных сетей, где одна генерирует распределение, а другая пытается определить, является ли сгенерированное распределение реальным или поддельным. В некотором смысле они конкурируют друг с другом за лучшую точность в своих соответствующих задачах, отсюда и название «состязательный». Они работают, беря любые случайные числа (или шум) в качестве входных данных, которые затем преобразуются с помощью сети, а сгенерированное распределение сравнивается с исходным набором данных, и ошибка распространяется обратно для повышения производительности сети. Примером вывода цифр и лиц, сгенерированных простой сетью, будет:

Результаты более продвинутых GAN, в которых используются пары деконволюционных и сверточных нейронных сетей, более многообещающие, чем в исходной статье. Теперь можно генерировать лица с определенными чертами (например, темнокожих женщин), чтобы сделать алгоритмы более точными и снизить риск систематической ошибки при идентификации для разнообразной популяции.

С появлением новых проблем с конфиденциальностью и, возможно, более строгим законодательством против использования очищенных данных для машинного обучения и продвижения в области GAN, вполне вероятно, что они заменят традиционные источники сбора данных и привнесут больше справедливости и прозрачности в ближайшие раз.