1. Введение

1.1 Аннотация

Сфера машинного обучения все больше адаптируется от базовых моделей, ориентированных на большие данные, к моделям, которым требуется лишь несколько точек данных для обобщения на новые задачи. Подтемы машинного обучения, такие как трансферное обучение, адаптация предметной области и метаобучение, стали видными решениями.

Сегодня я буду говорить о мета-переносе-обучении или сокращенно MTL (не путать с MtL, что означает мета-обучение). Это начало моей серии «Обзоры мета-учебных материалов».

1.2 Определения

Прежде всего, давайте начнем с определения, что это за категории и что они стремятся решить. У нас есть:

  • Трансферное обучение: представляет собой исследовательскую задачу в области машинного обучения, которая фокусируется на сохранении знаний, полученных при решении одной проблемы, и применении их к другой, но связанной проблеме.
  • Адаптация предметной области - это определенный сценарий в трансферном обучении и машинном обучении, когда мы стремимся изучить на основе распределения исходных данных хорошо работающую модель на другом (но связанном) целевом распределении данных.
  • Мета-обучение: i это подраздел машинного обучения, в котором алгоритмы автоматического обучения применяются к метаданным об экспериментах с машинным обучением.

Трансферное обучение и метаобучение - это два разных, но схожих метода применения прошлого опыта, полученного из больших источников данных, к новым невидимым задачам. В статье, опубликованной на Arxiv.org, под названием Подход к метаобучению для обучения пользовательским моделям показан новый подход к преодолению некоторых недостатков метаобучения путем объединения функций переноса обучения и потерь метаобучения в алгоритм обучения.

1.3 Организация

Этот пост состоит из следующих разделов:

  1. Введение (см. выше)
    - 1.1 Аннотация
    - 1.2 Определения
    - 1.3 Организация
  2. Meta-Transfer-Learning (сама статья)
    - 2.1 Описание проблемы
    - 2.2 Алгоритм
  3. Вывод (очевидный)
    - 3.1 Результаты
    - 3.2 Обсуждение
  4. Приложение (дополнительные ресурсы)
    - 4.1 Ресурсы
    - 4.2 Ссылки

Введение довольно очевидно и просто. Я быстро представил то, о чем буду говорить, и дал определение каждому термину. Далее я перейду к тому, что такое мета-трансферное обучение и о чем говорится в статье. После этого я сделаю вывод, основываясь на выводах статьи и моем собственном мнении по опубликованным результатам. В конце я предоставлю приложение с дополнительными определениями терминологии, кодом, ресурсами и т. Д.

2. Мета-передача-обучение

2.1 Описание проблемы

Глубокое обучение долгое время находилось в центре внимания и провозглашалось «будущим искусственного интеллекта». К сожалению, многие слишком быстро «покорились» и не смогли осознать огромные объемы данных, которые требуются для правильного обобщения задачи. Во многих сценариях, таких как автономные машины и системы автопилота, где система должна мгновенно адаптироваться к новым изменениям, очень трудно предоставить ей такой объем данных за короткий период времени. Проблема в том, что нам нужно создавать системы, которые могут учиться на небольшом количестве данных, но при этом очень хорошо обобщать.

Трансферное обучение передает модель, полученную из помеченных исходных данных, на другие задачи с менее маркированными данными. К сожалению, этот метод страдает той же проблемой, что и глубокое обучение, поскольку оптимизаторы на основе градиентов - это алгоритмы, требующие обработки данных. С другой стороны, метаобучение направлено на обучение моделей в пространстве задач, а не на самих данных. Это означает, что метаобучение не так сильно требует данных и может лучше учиться на опыте с меньшим объемом данных. Не совсем. Мета-обучение страдает двумя основными недостатками по сравнению с трансферным обучением:

  • Сценарий 1. Мета-обучение работает хуже, чем трансферное обучение, когда в целевой задаче есть много обучающих примеров для каждого класса.
  • Сценарий 2. Мета-обучение работает хуже, чем трансферное обучение, когда в целевой задаче много разных классов.

2.2 Алгоритм

В статье предлагается решение, называемое совместным методом «обучения с мета-переносом», которое преодолевает вышеупомянутые проблемы. Предлагаемый алгоритм прост. Он дополнен двумя новыми функциями потерь:

Каждая функция потерь генерирует свой собственный результат, который подается в оптимизатор на основе градиента (обычный стохастический градиентный приличный), который обновляет модель, используя средневзвешенное значение этих двух векторов. Благодаря Челси Финн и ребятам из OpenAI, теперь у нас есть семейство не зависящих от модели фреймворков метаобучения, которые используются в этом алгоритме.

3. Заключение

3.1 Результаты

Алгоритм был протестирован на небольшом наборе данных под названием miniImageNet. Он был разделен на 64 обучающих класса и 36 тестовых классов как невидимые задачи. Ход был простым. Базовая модель обучается для всех 64 задач, и на каждой итерации две функции потерь вычисляют новое значение обновления, затем выполняется градиентное выравнивание для двух векторов, которые, в свою очередь, обновляют модель. Затем модель проверяется на невидимых 36 задачах для вычисления точности.

3.2 Обсуждение

Как видите, новый подход работает намного лучше, чем классическое трансферное обучение или мета-обучение. Но, как отметили авторы, такой положительный результат не наблюдается на гораздо более крупных задачах! MTL удалось преодолеть две проблемы, упомянутые ранее, но пока только на небольших наборах данных. И снова, чтобы достичь общего искусственного интеллекта (AGI), мы должны создать систему, которая способна учиться на прошлом опыте и самостоятельно улучшать невидимые задачи. MAML, Reptile, MTL и другие подобные методы показали нам, что мы движемся в правильном направлении, но еще не достигли прорыва.

На мой взгляд, чтобы добиться большего успеха с этой стороны исследования, необходимо провести больше экспериментов. Особенно с более глубокими моделями, сложными моделями и в других областях. Я считаю, что есть много новшеств в связывании мета-передачи-обучения и мета-функций, чтобы иметь возможность лучше обобщать гораздо более крупные наборы данных. Если у вас есть какие-либо комментарии, идеи или вопросы по поводу этого поста или меня, пожалуйста, дайте мне знать ниже. Спасибо!

4. Приложение

4.1 Ресурсы

4.2 Ссылки

  1. Подход метаобучения для обучения пользовательским моделям Амира Эрфана Эшратифара и др. AAA I2019.
  2. Модель-агностическое метаобучение для быстрой адаптации глубинных сетей, Chelsea Finn NeurIPS 2017.
  3. Об алгоритмах метаобучения первого порядка Алекс Никол 2018.