Обучение с подкреплением со Скиннером

Дружеское введение в проблему обучения с подкреплением на примерах из нейробиологии

Обучение с подкреплением недавно стало центром внимания благодаря таким достижениям, как AlphaGo, и предположительно является одним из наших лучших достижений в области общего искусственного интеллекта - или, по крайней мере, более общего интеллекта. В этом посте я прослежу часть его истории до исследования Скиннера оперантного обусловливания.

На самом деле вопрос не в том, думают ли машины, а в том, думают ли люди - Б. Ф. Скиннер

Скиннер хотел понять, как животные развивают адаптивное поведение, каковы правила, лежащие в основе обучения. В то время кондиционированием интересовались многие другие ученые, например Иван Павлов, известный тем, что показал, что после сочетания колокольчика с говядиной у собак выделялась слюна на звук колокольчика.

Основное различие между Скиннером и его коллегами заключалось в его тщательности в проведении очень контролируемых экспериментов. Скиннер разработал камеру - теперь называемую оперантной камерой кондиционирования или просто ящиком Скиннера -, в которой животные, обычно крысы и голуби, могут быть изолированы от внешнего звука, запаха и света. , и стимулировались именно для каждого эксперимента. Марвин Мински в шутку сравнивает дотошность Скиннера с экспериментами Павлова в лаборатории, полной собак в клетках, далеких с точки зрения ухода и контроля.

Награждайте и повторяйте

Животные получали определенный стимул, такой как свет, звук или запах, и информацию от стимула можно было использовать для получения пищи или воды (подкрепление). Но крысе нужно было выполнить какое-то конкретное действие, чтобы получить в награду подкрепление, правильно выбирая между небольшим набором возможных действий, которые необходимо предпринять. Может возникнуть дискриминационная задача, когда загорится единственный свет, и если свет будет зеленым, животное будет вознаграждено за нажатие на рычаг прямо под ним. С другой стороны, если свет был красным, животное будет вознаграждено за нажатие на контралатеральный рычаг.

После некоторых проб и ошибок животные начали вести себя таким образом, чтобы увеличить свою норму вознаграждения, как если бы они понимали правила, регулирующие их вознаграждение, как будто понимая, что красный цвет означает «другой рычаг». Более того, если животные получали более высокую награду, они (как правило) учились быстрее. Большое количество контролируемых пространств было создано на основе блока Скиннера. Возьмем, к примеру, показанный здесь T-Maze с начальной точкой и точкой принятия решения. В зависимости от воспроизводимого звука (тональный сигнал) левая или правая рука будет содержать соответствующее подкрепление. Со временем животное учится переходить в правую руку в зависимости от звука, увеличивая тем самым свою награду.

Ответы, которые производят удовлетворительный эффект в конкретной ситуации, с большей вероятностью повторятся в этой ситуации, а реакции, вызывающие дискомфортный эффект, с меньшей вероятностью будут повторяться в этой ситуации - Закон Торндайка.

Изучение оперантного обусловливания все еще очень активно, с множеством направлений в развитии, таких как динамика привыкания, например сколько требуется тренировок, чтобы поведение потеряло гибкость - стало устойчивым к девальвации - и каковы лежащие в основе процессы. Не вдаваясь в подробности о возможных алгоритмах, которые использует наш мозг, в этом посте основное внимание уделяется описанию проблемы. Особый интерес для тех, кто изучает искусственный интеллект, представляют собой последовательные задачи, в которых необходимо выполнить множество действий, прежде чем будет получено вознаграждение.

Последовательные задачи

Отличный пример последовательной задачи - лабиринт. Есть много других, в которых непредвиденные обстоятельства на каждом этапе зависят от предыдущих. Но в лабиринте последовательный аспект пространственно распределен, поэтому он настолько ясен, насколько это возможно. Представьте, что животное бежит, исследуя лабиринт, пока не найдет награду (и его удаляют из лабиринта, чтобы начать заново). Строго следуя закону эффекта, животные будут пытаться повторять один и тот же квазислучайный кувшин по лабиринту, пока не найдут награду таким же образом, но это явно неэффективно. Фактически, из экспериментов ясно, что животные становятся более эффективными в обучении, вплоть до испытания, когда они сразу переходят к награде, не совершая никаких «ошибок».

Проблема, с которой борются животные, - это проблема присвоения кредита, а именно, как подкрепить те действия, которые действительно помогают принести награду, не усиливая те действия, которые только что были предприняты рядом с наградой? Фактически, есть много зарегистрированных случаев, когда голуби и кошки совершали повторяющиеся и совершенно ненужные действия, прежде чем нажимать на рычаги (например, Guthrie 1946), случаи, когда присвоение кредитов явно не было оптимальным. Проблема очень серьезная, и каждое продвижение в этом направлении является потенциальным огромным улучшением для систем обучения с подкреплением, созданных нами.

Чтобы быть ясным, это не маргинальная проблема: это центральная сложность, с которой борется обучение с подкреплением. В этой обстановке действия далеки от вознаграждения, и «идеальный ответ» может даже не быть четко определен. Сравните это с обучением с учителем - где «правильный» ответ указывается и отображается на каждом этапе. Дополнительная сложность - это именно то, что делает обучение с подкреплением таким широким и, как предполагается, нашим лучшим шансом в области общего искусственного интеллекта.

Формализм обучения с подкреплением - набросок

RL напоминает коробку скиннера. Агент имеет доступ к одному состоянию из указанного набора состояний (в предыдущем примере это мог быть конкретный левый зеленый свет) и может выбрать какое-то действие (нажимая левый рычаг, правый рычаг, не нажимая,…). Затем, действуя в окружающей среде, Агент получает Вознаграждение (например, еду, ничего…) и воспринимает себя в новом Состоянии.

Обучение - это увеличение количества вознаграждений

Чтобы увеличить количество наград во время выполнения задачи, агент должен иметь учетную запись, «какое действие является лучшим в каждом состоянии». Отсюда возникает оптимальная политика - программа для принятия решения о действиях - ,, которая обеспечивает максимальную ожидаемую норму вознаграждения. Существование оптимальной политики математически четко определено, если выполняется один из двух следующих критериев:

  1. Задача конечна, либо
  2. Позднее вознаграждения в будущем менее ценны, чем вознаграждения ближе к настоящему (существует ставка дисконтирования).

В случае оперантного обусловливания задачи, очевидно, конечны, но это не означает отсутствия дисконтирования. Фактически, существует очень современная дискуссия о скидке за отсрочку и ее последствиях для жизни людей, например, ее связи со злоупотреблением наркотиками (Bickel and Marsch, 2001).

С другой стороны, для обучения искусственных агентов выполнению непрерывной задачи (например, игре в Minecraft, которая не ограничена), важно иметь небольшой коэффициент скидки, чтобы гарантировать, что существует оптимальная политика для обучения агента.

Используя алгоритм

Итак, мы не могли закончить введение в обучение с подкреплением, не углубившись в уравнения, которые делают это возможным на компьютерах. Я откажусь от формализма и приведу небольшой и интуитивно понятный вывод алгоритма, который можно использовать для поиска оптимальной политики. Я делаю это, чтобы проиллюстрировать, как быстро мы можем перейти от теории к алгоритму. Прежде чем переходить к изображению, нам нужно лишь немного интуитивно понять значения действий:

  1. Лучшее действие - это то, которое максимизирует ожидаемую в будущем награду.
  2. Если мы знаем ожидаемую в будущем награду за каждое действие, мы всегда можем выбрать лучшее действие.
  3. Если мы всегда можем знать наилучшее действие, значит, мы достигли оптимальной политики.

Идея состоит в том, чтобы найти эту функцию Value, которая выводит ожидаемое возвращаемое значение выполнения действия в состоянии. Вы увидите, что мы начинаем с определения функции значения в (1) и заканчиваем алгоритмом в (5).

С помощью этого алгоритма можно итеративно обучаться, взаимодействуя с окружающей средой. На каждом этапе агент наблюдает за своим состоянием s и выполняет действие a, обновляя свои Значения в соответствии с полученным вознаграждением и следующим состоянием. пара действий. Помните проблему лабиринта? Поскольку он имеет дискретный и конечный набор состояний (точки принятия решения, бифуркации) и действий (например, идти налево, идти направо), мы можем решить его, используя Q-таблицу, подобную приведенной ниже.

Используя эту Q-таблицу, агент перейдет влево в третьей развилке, поскольку значение действия 1 является самым высоким. Таблица будет обновляться на каждом этапе, в конечном итоге приводя к оптимальной политике. Здесь я показываю очень простого агента, который учится держать шест с помощью этого алгоритма!

Вы можете видеть, что для приемлемого выполнения требуется много повторений, но это потому, что есть много улучшений, которые можно сделать для этого параметра.

Поскольку состояния непрерывны, мы могли бы значительно улучшить дискретизацию, используя вместо этого аппроксиматор непрерывных функций, такой как нейронная сеть! Тем не менее, формулировка проблемы осталась прежней, и основной целью этого сообщения в блоге было знакомство с ней.

Заключение

Этот пост был очень кратким вводным курсом в обучение с подкреплением и оперантное кондиционирование, и я намерен написать дальнейшие исследования, углубляясь в теорию и математику, лежащие в основе обоих, показывая все более лучшие и более сложные алгоритмы и соотнося их с нейробиологией.

Я надеюсь, что вы так же заинтересованы в обучении с подкреплением, как и я! Я верю (как и многие люди), что нейробиология может многое предложить в области искусственного интеллекта, особенно с точки зрения понимания высокого уровня. Пожалуйста, комментируйте и оставляйте отзывы, и спасибо за чтение!

дальнейшее чтение

Этот пост от neptune.ai содержит множество интересных ресурсов, позволяющих глубже погрузиться в сферу обучения с подкреплением, от руководств до полных курсов.

Если вы хотите узнать больше о нейробиологии, попробуйте The Spike здесь, на medium.

использованная литература

Бикель, В. К., и Марш, Л. А. (2001). К поведенческому экономическому пониманию наркозависимости: отсрочка дисконтирования. Зависимость, 96 (1), 73–86.

Дам, Г., Кординг, К., и Вэй, К. (2013). Присвоение кредитов во время обучения с подкреплением движением. PLoS One, 8 (2), e55352.

Гатри, Э. Р., и Хортон, Г. П. (1946). Кошки в коробке-головоломке.

Малки, Х. А., Донга, Л. А., Де Гроот, С. Е., Батталья, Ф. П., и Пеннарц, К. М. (2010). Аппетитивное оперантное кондиционирование у мышей: наследуемость и диссоциация стадий обучения. Границы поведенческой нейробиологии, 4, 171

Смит, К. С., и Грейбил, А. М. (2013). Двойной операторский взгляд на привычное поведение, отражающий корковую и полосатую динамику. Neuron, 79 (2), 361–374.

Саттон, Р. С., и Барто, А. Г. (2018). Обучение с подкреплением: введение. Пресса MIT.