"Искусственный интеллект"

GAN, которые могут распознавать концепции меньшинств для смягчения предвзятости

BAGAN от IBM способен идентифицировать концепции меньшинства во входных наборах данных.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Люди обладают уникальной способностью узнавать понятия из изображений в одном кадре. Покажите ребенку изображение собаки, и он или она сможет сразу же распознать всех видов лебедей, независимо от различий в цвете кожи, размере, породе, поле и т. д. Напротив, обучение простой модели классификации изображений в искусственном интеллекте (ИИ) может взять огромные обучающие наборы данных. Что еще хуже, модели ИИ не очень хорошо распознают вариации одного и того же класса объекта, поэтому для обучения модели классификации изображений распознаванию собак потребуется обучающий набор данных со всевозможными лебедями. В результате модели классификации изображений печально известны тем, что они несбалансированы и демонстрируют предвзятое поведение, основанное на наборе обучающих данных. Одно из самых интересных исследований в этой области было опубликовано группой исследователей ИИ из исследовательской лаборатории IBM в Цюрихе в статье, предлагающей новый метод, основанный на генеративно-состязательных сетях (GAN), для борьбы с предвзятостью и достижения баланса в наборах данных изображений.

Баланс является одним из ключевых аспектов, влияющих на точность моделей классификации изображений. Модель, идентифицирующая лебедей, скорее всего, потерпит неудачу, если представить изображение черного лебедя, поскольку они не очень распространены. В результате специалисты по обработке и анализу данных тратят много времени и ресурсов, пытаясь дополнить обучающие наборы данных, вводя изображения меньшинства, но этот ручной подход трудно масштабировать. Генеративные модели, такие как GAN, идеально подходят для создания новых изображений из набора данных, но их нельзя эффективно обучить, поскольку выборок меньшинства недостаточно. Подводя итог, генеративная модель, которая восстанавливает баланс в наборе данных изображения, требует двух вещей:

а) Возможность генерировать новые изображения на основе примеров меньшинства.

б) Способность изучать концепции меньшинств на основе сокращенного обучающего набора.

Представляем БАГАН

Балансирующая генеративно-состязательная сеть (BAGAN) — это вариант GAN, ориентированный на восстановление баланса в обучающем наборе данных на основе изображений меньшинств. Как и традиционные GAN, BAGAN использует две конкурирующие нейронные сети: генератор и дискриминатор, которые совместно обучаются изображениям большинства и меньшинства и учатся генерировать новые изображения, соответствующие набору данных. Во время обучения генератору явно предлагается нарисовать изображения каждого класса и позволить дискриминатору поверить, что сгенерированные изображения являются реальными изображениями желаемых классов. При этом генератор явно вознаграждается за рисование реалистичных изображений каждого класса, включая классы меньшинств. Дискриминатор, с другой стороны, вознаграждается за то, что помечает изображения как поддельные или относит их к определенному классу. Ключевой вклад BAGAN заключается в том, что он может проводить генеративный процесс для различных классов изображений, включая изображения меньшинств. BAGAN достигает этого, расширяя традиционные GAN методом автокодирования, который обеспечивает точный выбор условий класса.

Архитектура BAGAN основана на трех разных этапах: обучение автоэнкодера, инициализация GAN и обучение GAN.

· Обучение автоэнкодера: автоэнкодер BAGAN обучается с использованием всех изображений обучающего набора данных. Автоэнкодер не имеет явных знаний о классах, он безоговорочно обрабатывает все изображения из классов большинства и меньшинства.

· Инициализация GAN: в BAGAN состязательная модель изначально обучается с различными классами изображений. Во время обучения генератору предлагается создать изображения для разных классов, а дискриминатору предлагается пометить изображения как поддельные или относящиеся к определенному классу. GAN также обучается со знанием автоэнкодера, который используется для инициализации генератора весами декодера. Дискриминатор изначально обучается функциям, которые позволяют ему классифицировать изображения по разным классам.

· Противоположное обучение. На этом этапе данные проходят через генератор и дискриминатор пакетами, а их веса настраиваются для оптимизации функций потерь. Дискриминатор классифицирует входное изображение как относящееся к одному из n классов задач или как фальшивое. Для каждой партии, полученной дискриминатором, генератор изучает партию того же размера, что помогает поддерживать баланс между обеими сетями. Процесс повторяется несколько раз, пока не будет достигнут баланс в наборе данных.

Первоначальная реализация BAGAN на основе Keras и TensorFlow доступна на Github.

БАГАН в действии

Используя архитектуру, описанную в предыдущем разделе, BAGAN может генерировать изображения из классов меньшинств, которые восстанавливают баланс в целевом наборе данных. Если нам нужно количественно оценить эффективность BAGAN, мы должны искать три ключевых свойства в сгенерированных изображениях:

а) Сгенерированные изображения должны представлять целевой класс.

б) Сгенерированные изображения не должны повторяться.

в) Сгенерированные изображения должны отличаться от изображений в исходном наборе данных.

Основываясь на этих трех свойствах, вы можете сами судить о результатах БАГАН. При использовании против популярного набора данных CIFAR-10 крошечных изображений BAGAN смог создать изображения, которые демонстрируют гораздо большее разнообразие, чем конкурирующие альтернативы.

Аналогичные результаты наблюдались при обучении с использованием классов меньшинств в Немецком наборе данных для распознавания дорожных знаков.

Борьба с предвзятостью — одна из основных задач ИИ в следующем десятилетии. Разработка моделей ИИ, которые могут эффективно работать с классами меньшинств, а также работать с обычными объектами, необходима для создания более разнообразного и менее предвзятого ИИ. Такие методы, как BAGAN, являются одной из первых попыток восстановить баланс в наборах данных классификации изображений. В конце концов, ИИ может распознать черных лебедей.