OpenAI учит ИИ решать сверхчеловеческие задачи, усиливая слабых учителей

Новый метод называется Iterated Amplification и предназначен для постепенного создания обучающего сигнала для сложных проблем путем комбинирования решений для более простых задач.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, на который уже подписано более 100 000 человек. TheSequence - это информационный бюллетень, ориентированный на ML (то есть без рекламы, без новостей и т. Д.), На чтение которого уходит 5 минут. Наша цель - держать вас в курсе проектов, исследовательских работ и концепций машинного обучения. Пожалуйста, попробуйте, подписавшись ниже:

TheSequence
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире искусственного интеллекта. Нам доверяют более 85 000… thesequence.substack.com

Большинство важных задач, которые люди выполняют в течение длительного периода, трудно определить в целях. Рассмотрите такие процессы, как достижение научного прорыва, разработка экономической политики или создание команды, победившей в чемпионате НБА. Эти процессы трудно смоделировать в дискретных целях, и оценка их эффективности является результатом постоянных экспериментов и корректировок. С точки зрения сложности, эти задачи можно рассматривать «за гранью человеческого масштаба» (BHS) в том смысле, что их редко может спланировать один человек, учитывая их обширное пространство для наблюдения.

В области машинного обучения мы полагаемся на обучающие сигналы для управления процессом обучения алгоритма. Однако задачи BHS не имеют объективного обучающего сигнала, учитывая их непрерывный характер и сложность. Как научить системы машинного обучения решать задачи BHS? Это стало темой новой статьи, опубликованной исследователями искусственного интеллекта (AI) OpenAI. В документе предлагается метод, называемый итеративным усилением, для постепенного построения обучающего сигнала для сложных задач путем комбинирования решений для более простых задач.

Помимо обучения с учителем и обучения с подкреплением

Описание задач «за пределами человеческого масштаба» (BHS) очень похоже на задачи обучения с подкреплением. Я имею в виду, что если у нас нет алгоритмического сигнала для конкретных задач, не могли бы мы просто реализовать модель вознаграждения, основанную на обучении с подкреплением? К сожалению, большое пространство для наблюдения и когнитивная сложность задач BHS делают невозможным создание модели вознаграждения с самого начала. Давайте возьмем пример агента ИИ, которому поручено разработать эффективную экономическую политику. В краткосрочной перспективе ни один инструктор-человек не сможет оценить эффективность политики, учитывая, что ему, возможно, придется вычислять миллионы сигналов данных. Только наблюдая за долгосрочными эффектами политики, такими как экономический рост, человек сможет создать надежный обучающий сигнал о процессе. С этой точки зрения результаты обучения с подкреплением непрактичны для задач BHS.

Исходя из сложности обучающего сигнала, мы можем классифицировать задачи как алгоритмические, человеческие и сверхчеловеческие. На следующем рисунке показаны некоторые примеры этих задач в контексте контролируемого обучения и обучения с подкреплением. Основная часть практик машинного обучения работает в верхнем центральном поле (контролируемое обучение с использованием человеческих ярлыков), нижнем левом поле (RL со скриптовым вознаграждением) и иногда в верхнем левом поле (контролируемое обучение алгоритмов). Нижний центральный блок начинает изучаться такими методами, как обучение с обратным подкреплением. В настоящее время нет четкого способа решить проблемы, показанные в правом нижнем и верхнем окнах.

Проблема решения задач BHS сводится к построению лучшего обучающего сигнала. Теоретически обучающий сигнал BHS может быть построен путем постепенного составления обучающих сигналов для более простых задач. Это основа метода итеративного усиления OpenAI.

Итерированное усиление

Большинство задач, выходящих за рамки человеческого масштаба (BHS), технически можно разложить на более мелкие и простые задачи в течение определенного периода времени. Обучающий сигнал для этих задач также проще определить человеку или агенту ИИ. Например, даже если мы не можем сразу оценить производительность большой транспортной системы, мы можем количественно оценить ее эффективность на одной улице, затем экстраполировать это на класс улиц, кварталов и постепенно начать создавать достаточно сигналов данных, чтобы судить об общем производительность транспортной системы. Итеративное усиление основывается на этой динамике для постепенного создания обучающих сигналов для задач BHS.

Метод итерационного усиления начинается с выборки небольших подзадач и обучения ИИ-системы их выполнению, запрашивая демонстрации у людей (которые могут выполнять эти небольшие задачи). Затем метод начинает выборку немного более крупных задач, решая их, предлагая людям разбить их на мелкие части, которые теперь могут решать системы ИИ, обученные на предыдущем шаге. Решения этих немного более сложных задач, которые были получены с помощью человека, используются в качестве сигнала для обучения систем ИИ для решения этих задач второго уровня напрямую (без помощи человека).

Математически итеративное усиление для человека-эксперта H для обучения ML-агента X можно смоделировать как функцию AmplifyH (X) для составной системы, состоящей из H и нескольких копий X, работающих вместе для решения проблемы. Предположим, что мы пытаемся обучить X предсказывать ответ A на основе распределения вопросов D {Q1, Q2… Qn}. Процесс повторного усиления можно кратко описать в четыре простых шага:

1. Итеративная амплификация многократно выбирает вопрос Q ~ D, используйте AmplifyH (X), чтобы ответить на этот вопрос, и записывайте каждое решение, принятое H во время процесса.

2. Модель H ’обучена предсказывать решения, принимаемые H в каждой из этих задач, то есть предсказывать подвопросы Qi и окончательные ответы A.

3. Модель неоднократно выбирает вопрос Q ~ D, использует AmplifyH ’(X), чтобы ответить на этот вопрос, и записывает результирующие пары (Q; A).

4. Используйте обучение с учителем для обучения модели с использованием пар (Q, A).

Поведение агентов ИИ, использующих итеративное усиление, выглядит следующим образом:

· Изначально X отвечает на вопросы случайным образом. Когда люди задают подвопросы, они часто получают бессвязные или бесполезные ответы.

· Человек может отвечать на некоторые вопросы без какой-либо помощи X, и со временем X учится копировать эти простые ответы.

· Как только X сможет давать простые ответы, человек сможет давать несколько более точные ответы, разбивая их на простые части. Затем X учится давать немного лучшие ответы.

· Этот процесс продолжается, при этом X постепенно расширяет набор запросов, на которые он может ответить, и постепенно улучшает ответы, которые он дает. На каждом этапе обучения AmplifyH (X) немного умнее, чем X, работающий самостоятельно, и X преследует эту движущуюся цель.

IA в действии

Команда OpenAI протестировала повторное усиление в пяти сложных задачах: включение перестановки, последовательные присваивания, поиск по шаблону, кратчайший путь и поиск объединения. У каждой из этих задач есть известное решение, которое игнорируется в целях эксперимента. Вместо этого агенты ИИ пытаются решить задачи, собирая вместе небольшие одношаговые выводы (например, объединяя два пути, чтобы сформировать более длинный путь). OpenAI использовал итеративное усиление, чтобы изучить прямой алгоритм, используя только части в качестве обучающего сигнала, таким образом моделируя ситуацию, когда человек знает, как объединить части решения, но не может предоставить прямой обучающий сигнал. В каждом случае повторное усиление могло превзойти альтернативные методы. Подробные результаты экспериментов можно увидеть в исследовательской статье.

Итеративное усиление - интересный подход для решения задач, выходящих за рамки человеческого масштаба, которые не имеют четкого вознаграждения или обучающего сигнала. Такие методы, как итеративное усиление, являются первым шагом к расширению ИИ в областях долгосрочного планирования, включая те, в которых люди не могут вычислить четкую цель.

OpenAI учит ИИ решать сверхчеловеческие задачи, усиливая слабых учителей

Помимо обучения с учителем и обучения с подкреплением

Итерированное усиление

IA в действии

Вопросы по теме