Как Uber использует синтетические данные для ускорения обучения

Обзор недавней публикации Uber AI Labs

Недавно лаборатория Uber AI Labs опубликовала документ под названием Генеративные обучающие сети: ускорение поиска нейронной архитектуры за счет обучения генерированию синтетических обучающих данных. В этой статье авторы описали новый алгоритм обучения, используемый для автоматического создания данных, учебных сред и учебных программ, чтобы помочь агентам ИИ быстро учиться. Статью можно найти здесь.

МОТИВАЦИЯ

Когда использование синтетических данных обучения более полезно, чем использование всех имеющихся реальных данных?

Эксперты в области исследований ИИ постепенно начинают отходить от идеи, что чем больше данных, тем лучше. Наборы суррогатных данных, которые создаются путем интеллектуальной выборки для подмножества обучающих данных, могут привести к сопоставимой производительности теста и меньшим усилиям по обучению. В контексте глубокого обучения это означает эффективный поиск оптимальных архитектур нейронных сетей. Интеллектуальная подвыборка значительно снижает усилия по обучению, поскольку зачастую обучение тысяч возможных архитектур NN на полных наборах данных может быть дорогостоящим.

ДОПОЛНИТЕЛЬНАЯ РАБОТА

Суррогатный набор данных можно создать путем интеллектуальной выборки подмножества обучающих данных. Такие суррогаты позволяют проводить соревновательные тесты с меньшими затратами на обучение.

В литературе есть несколько примеров, где применялись суррогатные данные обучения, включая изучение учебной программы, активное обучение и выбор основного набора:

Обучение по учебной программе

Грейвс и др. Представили метод автоматического выбора пути или учебной программы, которым нейронная сеть следует в рамках учебной программы, чтобы максимизировать эффективность обучения.

Активное обучение

Конюшкова и др. и др., предлагают новый управляемый данными подход к активному обучению (AL), при котором они обучают регрессора, который предсказывает ожидаемое уменьшение ошибок для выборки-кандидата в конкретном состоянии обучения .

Выбор основного набора

Sener et. др., определил активное обучение как выбор основного набора. Выбор базового набора работает путем выбора набора точек таким образом, чтобы модель, обученная на выбранном подмножестве, была конкурентоспособной для остальных точек данных .

Ключевой вывод статьи Uber заключается в том, что суррогатные данные не обязательно должны быть получены из исходного распределения данных. В качестве примера они приводят, что люди учатся новому навыку, читая книгу или готовясь к командной игре, такой как футбол, тренируясь в пасах или дриблинге.

Целью статьи является исследование того, может ли нейронная сеть, генерирующая данные, производить синтетические данные, которые эффективно преподают целевую задачу учащемуся.

ОБЩИЕ ОБУЧАЮЩИЕ СЕТИ

В своей статье Uber AI Labs предлагает сети генеративного обучения (GTN): масштабируемый, новый метод метаобучения для генерации синтетических данных.

Как указывалось ранее, задача GTN - создать нейронную сеть, генерирующую данные. После создания GTN обучающийся нейронной сети обучается на данных, сгенерированных GTN. GTN и обучающаяся сеть взаимодействуют (противоположность GAN, которые конкурируют), чтобы быстро добиться высокой точности в целевой задаче.

РЕЗУЛЬТАТЫ

В исследовании авторы демонстрируют, что GTN могут генерировать синтетический обучающий набор, который позволяет ускорить обучение по сравнению с обучением на полных наборах данных в двух контролируемых областях обучения, MNIST и CIFAR10.

MNIST

Набор данных MNIST содержит рукописные цифры (от 0 до 9) и обычно используется для обучения систем обработки изображений. Задачей обучения в этом контексте является классификация рукописной цифры.

Ключевым выводом из результатов MNIST является то, что метод GTN сходится быстрее с меньшим количеством итераций, чем обучение на реальных данных и подвыборках реальных данных. Хотя сходимая ошибка больше по величине, чем модель, обученная на реальных данных, она недалеко от сходимого значения для реальных данных, даже если потребовалось меньше итераций.

CIFAR10

Набор данных CIFAR10 содержит 10 классов различных изображений, включая автомобили, птиц, кошек, оленей, собак, лягушек, лошадей, корабли и грузовики. Он также обычно используется для обучения систем обработки изображений, для классификации изображений.

Подобно примеру MNIST, плато частоты появления ошибок GTN намного быстрее, чем реальная частота ошибок данных, которая в случае реальных данных еще не достигла сходимости после 120 итераций внутреннего цикла.

ВЫВОДЫ

В этом посте мы рассмотрели новый метод Uber AI Lab для генерации синтетических данных для ускоренного обучения. GTN - это в основном противоположность GAN, где две сети взаимодействуют друг с другом, чтобы минимизировать количество ошибок учащегося. Метод GTN ускоряет сходимость ошибок в задачах классификации изображений при обучении на данных MNIST и CIFAR10. Возможные дополнительные приложения включают использование обучения с подкреплением для создания новых задач, способствующих обучению. Еще одно возможное применение - это разработка методов, которые можно использовать для уговора GTN для создания виртуальных миров, которые мы можем изучать, играть или исследовать.

Надеюсь, вам эта статья показалась интересной!

Как Uber использует синтетические данные для ускорения обучения

Обзор недавней публикации Uber AI Labs

Вопросы по теме