"Искусственный интеллект"

OpenAI использует слабых учителей для усиления моделей обучения с подкреплением

Новая методика показывает, как ускорить модели обучения с подкреплением для решения сверхчеловеческих задач.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Большинство важных задач, которые люди выполняют в течение длительного периода времени, трудно определить в целях. Рассмотрим такие процессы, как достижение научного прорыва, разработка экономической политики или сбор команды-победителя чемпионата НБА. Эти процессы трудно смоделировать в отдельных целях, а оценка их эффективности является результатом постоянных экспериментов и корректировок. С точки зрения сложности эти задачи можно считать «выходящими за пределы человеческого масштаба» (BHS) в том смысле, что их редко может спланировать один человек, учитывая их огромное пространство для наблюдения.

В пространстве машинного обучения мы полагаемся на обучающие сигналы для управления процессом обучения алгоритма. Однако задачи BHS не имеют объективного обучающего сигнала, учитывая их непрерывный характер и сложность. Как мы можем научить системы машинного обучения решать задачи BHS? Это было предметом статьи, опубликованной исследователями искусственного интеллекта (ИИ) Powerhouse OpenAI. В документе предлагается метод, называемый итеративным усилением, для постепенного создания обучающего сигнала для сложных задач путем комбинирования решений более простых задач.

Помимо контролируемого обучения и обучения с подкреплением

Описание задач «за пределами человеческого масштаба» (BHS) очень похоже на задачи обучения с подкреплением. Я имею в виду, если у нас нет алгоритмического сигнала для конкретных задач, не можем ли мы просто реализовать модель вознаграждения, основанную на обучении с подкреплением? К сожалению, большое пространство для наблюдения и когнитивная сложность задач BHS не позволяют разработать модель вознаграждения с самого начала. Давайте возьмем пример агента ИИ, которому поручено разработать эффективную экономическую политику. В краткосрочной перспективе один человек-тренер не сможет оценить эффективность политики, учитывая, что ему, возможно, придется вычислять миллионы сигналов данных. Только наблюдая за долгосрочными эффектами политики, такими как экономический рост, человек сможет создать надежный обучающий сигнал о процессе. С этой точки зрения обучение с подкреплением нецелесообразно для задач BHS.

Основываясь на сложности обучающего сигнала, мы можем классифицировать задачи как алгоритмические, человеческие и сверхчеловеческие. На следующем рисунке показаны некоторые примеры этих задач в контексте методов контролируемого обучения и обучения с подкреплением. Основная часть методов машинного обучения работает в верхнем центральном блоке (обучение с учителем по человеческим меткам), нижнем левом блоке (RL с вознаграждением по сценарию) и иногда в верхнем левом блоке (контролируемое обучение алгоритмов). Нижняя центральная коробка начинает изучаться с помощью таких методов, как обучение с обратным подкреплением. В настоящее время нет четкого способа решения проблем, показанных в нижнем и верхнем правом полях.

Проблема решения задач BHS сводится к построению лучшего обучающего сигнала. Теоретически обучающий сигнал BHS может быть построен путем постепенного составления обучающих сигналов для более простых задач. Это основа метода повторного усиления OpenAI.

Повторяющееся усиление

Большинство задач, выходящих за рамки человеческого масштаба (BHS), технически могут быть разложены на более мелкие и простые задачи в течение определенного периода времени. Обучающий сигнал для этих задач также проще оценить человеку или агенту ИИ. Например, даже если мы не можем сразу оценить производительность большой транспортной системы, мы можем количественно оценить ее эффективность на одной улице, затем экстраполировать ее на класс улиц, кварталов и постепенно начать создавать достаточно сигналов данных, чтобы судить об общей производительность транспортной системы. Повторяющееся усиление основывается на этой динамике для постепенного создания обучающих сигналов для задач BHS.

Техника повторного усиления начинается с выборки небольших подзадач и обучения системы ИИ их выполнению путем запроса демонстраций от людей (кто может выполнять эти небольшие задачи). Затем метод начинает выборку немного более крупных задач, решая их, предлагая людям разбить их на мелкие части, которые теперь могут решать системы ИИ, обученные на предыдущем этапе. Решения этих немного более сложных задач, полученные с помощью человека, используются в качестве сигнала для обучения систем ИИ решать эти задачи второго уровня напрямую (без помощи человека).

Математически итерируемая амплификация для человека-эксперта H для обучения агента машинного обучения X может быть смоделирована как функция AmplifyH(X) для составной системы, состоящей из H и нескольких копий X, работающих вместе для решения проблемы. Предположим, что мы пытаемся обучить X предсказывать ответ A из распределения вопросов D{Q1,Q2…Qn}. Процесс итеративной амплификации можно свести к четырем простым шагам:

1. Повторяющаяся амплификация многократно отбирает вопрос Q ~ D, использует AmplifyH(X) для ответа на этот вопрос и записывает каждое решение, принятое H в ходе процесса.

2. Модель H' обучается предсказывать решения, принимаемые H в каждой из этих задач, т.е. предсказывать подвопросы Qi и окончательные ответы A.

3. Модель повторно выбирает вопрос Q ~ D, использует AmplifyH’(X) для ответа на этот вопрос и записывает полученные пары (Q;A).

4. Используйте обучение с учителем для обучения модели с помощью пар (Q,A).

Поведение агентов ИИ, использующих многократное усиление, развивается следующим образом:

· Первоначально X отвечает на вопросы случайным образом. Когда человек задает подвопросы, он часто получает бессвязные или бесполезные подответы,

· Человек может ответить на некоторые вопросы без какой-либо помощи со стороны X, и в конце концов X научится копировать эти простые ответы.

· Как только X может давать простые ответы, человек может давать несколько лучшие ответы, разбивая их на простые части. Затем Х научится давать несколько лучшие ответы.

· Этот процесс продолжается, X постепенно расширяет набор запросов, на которые он может ответить, и постепенно улучшает ответы, которые он дает. На каждом этапе обучения AmplifyH(X) немного умнее, чем X, работающий сам по себе, и X преследует эту движущуюся цель.

ИА в действии

Команда OpenAI протестировала итеративное усиление в пяти сложных задачах: включение перестановок, последовательные назначения, поиск по подстановочным знакам, поиск кратчайшего пути и поиск объединения. Каждая из этих задач имеет известное решение, которое игнорируется в целях эксперимента. Вместо этого агенты ИИ пытаются решать задачи, объединяя небольшие одноэтапные выводы (например, объединяя два пути для формирования более длинного пути). OpenAI использовал итеративное усиление для изучения прямого алгоритма, используя только части в качестве обучающего сигнала, таким образом моделируя ситуацию, когда человек знает, как комбинировать части решения, но не может предоставить прямой обучающий сигнал. В каждом случае повторная амплификация могла превзойти альтернативные методы. Подробные результаты экспериментов можно посмотреть в научной статье.

Итеративное усиление — это интересный подход к решению задач, выходящих за рамки человеческого масштаба, которые не имеют четкого вознаграждения или обучающего сигнала. Такие методы, как итеративное усиление, — это первый шаг к распространению ИИ на области долгосрочного планирования, включая те, в которых люди не могут поставить четкую цель.