Дофамин и искусство обратной связи

История глубокого успеха современной нейробиологии - это теория, согласно которой дофаминовые нейроны сигнализируют об ошибке предсказания, о несоответствии между ожидаемым вознаграждением и тем, что вы получили.

Его успех глубокий. Это было подтверждено сходными данными по возбуждению нейронов, высвобождению дофамина и кровотоку, наблюдаемому на фМРТ. Эти доказательства были собраны у разных видов, от людей, обезьян, крыс и пчел. Есть даже причинные доказательства того, что принуждение дофаминовых нейронов к срабатыванию посылает в мозг сигналы об ошибках, эффекты, которые мы можем наблюдать в поведении животных, с которыми играют дофаминовые нейроны. Теория связывает данные от масштаба человеческого поведения до уровня отдельных нейронов. В отличие от многих теорий о мозге, эта является чисто вычислительной и дает множество нетривиальных предсказаний, которые оказались верными. Допамин и ошибки в предсказаниях тесно взаимосвязаны.

Но эта интимная связь поднимает более серьезный, но редко сформулированный вопрос. Совершенно возможно построить мозг, который учится на ошибках, не имея явного представления об этой ошибке в мозгу. Так почему же мозг вообще выдает сигнал об ошибке для вознаграждения?

Чтобы понять этот вопрос, сначала нам нужно немного узнать о самой теории ошибок предсказания. Теория гласит, что дофаминовые нейроны запускают неожиданно хорошие вещи. Если я внезапно похлопываю вас по плечу и протягиваю сладкое, ваши дофаминовые нейроны начинают звенеть! для сладкого.

Если я продолжаю хлопать вас по плечу и продолжать давать вам сладкое, ваши дофаминовые нейроны перестанут пинговать сладкое - получение сладкого - это здорово, но это уже не является неожиданностью (и, честно говоря, вы бы предпочли, чтобы я уважал ваше личное пространство. немного больше). Вместо этого дофаминовые нейроны начинают звенеть! для самого крана. Это хитрый момент: нейрон пингует! потому что похлопывание по плечу теперь надежно предсказывает приближение сладкого (хорошая вещь), но это неожиданно, потому что вы не знаете, когда будет постукивание, поэтому похлопывание по плечу становится неожиданно хорошей вещью.

Теория также утверждает, что дофаминовые нейроны, как и люди, глубоко расстроены нарушением их распорядка. Установив эти доверительные отношения - я несколько раз хлопаю вас по плечу, а вы, по крайней мере, получаете серию сладостей из-за этого нарушения социальных норм - что произойдет, если я похлопаю вас по плечу, а затем не дам вам сладкое? Затем ваши дофаминовые нейроны полностью отключаются, вообще перестают активироваться на короткое время.

Короче говоря, дофаминовые нейроны посылают быстрый сигнал, который покрывает все три возможные ошибки при прогнозировании вознаграждения: что вознаграждение было лучше, чем ожидалось (положительная ошибка); что награда была в точности такой, как ожидалось (без ошибок); или что награда была меньше ожидаемой (отрицательная ошибка). Мы можем обозначить все это с помощью одного из тех мучительных сложных существительных, любимых учеными: дофаминовые нейроны посылают ошибку предсказания вознаграждения.

Это соответствие между дофамином и «ошибкой предсказания вознаграждения» уходит своими корнями в ветвь ИИ, называемую обучением с подкреплением (ну, технически, это ветвь машинного обучения, но поскольку теперь все обозначено как ИИ, включая FitBit, в котором я почти уверен это просто акселерометр с ремешком, то AI он есть). Обучение с подкреплением - это совокупность алгоритмов того, как что-то может научиться, только если ему говорят, насколько ошибочными или правильными были его собственные прогнозы.

Все классические алгоритмы обучения с подкреплением имеют явный сигнал об ошибке в прогнозировании того, насколько ценным будет выбор (где перекличка алгоритмов включает бандитов, обучение временной разнице, Q-обучение, SARSA или Actor-Critic). Это сигнал между прогнозируемым значением того, что произойдет дальше, и фактическим значением того, что произойдет дальше - где значение измеряется ожидаемой суммой будущего вознаграждения. Магия обучения с подкреплением заключается в том, что, просто минимизируя эту ошибку между прогнозируемым и фактическим значением каждой следующей вещи в мире, искусственный агент может изучить удивительно сложные последовательности событий, такие как навигация по миру или то, как бегать.

И это вычислительная часть теории дофамина: быстрые реакции дофаминовых нейронов - это всего лишь ошибка предсказания алгоритмов обучения с подкреплением. Что они представляют собой ошибку между прогнозируемым и фактическим значением того, что произойдет дальше. И они привыкли этому учиться. Ключ к этой теории заключается не только в том, что дофаминовые нейроны сигнализируют о разнице между полученным вознаграждением и ожидаемым. Дело в том, что они также передают этот сигнал неожиданным вещам, которые предсказывают вознаграждение, в точности так, как говорят алгоритмы обучения с подкреплением.

Это не означает, что дофаминовые нейроны только кодируют эту ошибку предсказания. Есть много нюансов в том, чем могут интересоваться сами дофаминовые нейроны, - это сверхнабор вещей, выходящих за рамки ошибок предсказания. И действительно, ошибки в предсказании вознаграждения - это всего лишь подмножество возможных ошибок в предсказаниях о мире, которые могут существовать в мозгу (история для следующего раза). Но то, что дофаминовые нейроны кодируют ошибку в предсказании вознаграждения, кажется хорошо известной частью того, что они делают.

(И это предполагаемое соответствие между быстрой реакцией дофаминовых нейронов и ошибкой предсказания справедливо и для более сложных алгоритмов обучения с подкреплением, таких как захватывающее возрождение и расширение идеи Питера Даяна о представлении преемника Сэмом Гершманом, Идой Моменнеджад, Ким Стахенфельд и его коллеги. В представлении преемника есть не одна простая ошибка между тем, что вы предсказали, и тем, что вы получили, а целый вектор ошибок в предсказаниях изменений различных характеристик мира, одна из которых - вознаграждение ». Недавняя статья »Гершмана и его коллег показывает, как представление о быстром ответе дофаминовых нейронов как о сумме этих ошибок может объяснить некоторые озадачивающие недавние открытия о дофаминовых нейронах, посылающих быстрые сигналы изменениям в мире, которые не являются вознаграждением.)

Но не было необходимости в существовании этого соответствия между нейроном и теоретическим сигналом ошибки. Алгоритмы обучения с подкреплением основаны на наблюдениях за поведением животных. И они могут быть очень успешными: животные, в том числе люди, часто действительно ведут себя так, будто используют ошибку предсказания в качестве вознаграждения, чтобы узнать о мире. Но только потому, что мы можем описать поведение, используя ошибку в предсказании вознаграждения, из этого не следует, что в мозгу должен быть такой явный сигнал ошибки.

Ибо вполне возможно построить систему, которая изучает мир, используя обратную связь, не имеющую явного сигнала об ошибке в своих предсказаниях. Одним из примеров таких систем является байесовский агент, который узнает о вероятностях событий в будущем, а не о достоверности.

Такой байесовский агент может представлять неуверенность в том, какой будет ценность действия A. Эта неопределенность будет закодирована распределением вероятностей - которое мы могли бы записать P (значение | действие A) - для возможных значений действия A. Например, может быть высокая вероятность того, что действие A будет иметь низкое значение, и малая вероятность будет иметь высокое значение; или наоборот; или что-то гораздо более сложное.

Мы отправляем нашего бедного байесовского агента в самый унылый мир, который только можно представить. Вся его жизнь состоит в том, чтобы снова и снова выбирать, какой из трех рычагов он должен тянуть, чтобы выиграть монету. Поскольку шансы выиграть монету у трех рычагов различаются, агент должен решить, какой из них потянуть, чтобы получить как можно больше монет в долгосрочной перспективе. Три рычага, значит, три возможных действия, три соответствующих распределения вероятности для значения каждого рычага. В каждом раунде агент выбирает рычаг, основанный на этих распределениях вероятностей - возможно, он стремится выбрать тот, который в настоящее время дает наибольшую вероятность наибольшего вознаграждения - и наблюдает за монетой.

Монета или нет, агент использует результат для обновления своего распределения вероятностей. Монета свидетельствует о том, что рычаг хорош, поэтому агент увеличивает вероятность того, что нажатие на рычаг имеет высокую ценность; отсутствие монеты не свидетельствует о том, что рычаг не годится, поэтому агент увеличивает вероятность того, что нажатие на рычаг имеет низкую ценность. В любом случае агент теперь имеет больше информации о выбранном им действии, независимо от того, был ли это хороший результат или плохой. Распределение вероятностей для этого действия обновляется, чтобы отразить эту информацию путем изменения параметров распределения.

Сигнала об ошибке нет. Агент учится на основе обратной связи о мире и может использовать это обучение для принятия решений, но не имеет сигнала ошибки предсказания. Конечно, мы могли бы построить такое - вычислив разницу между распределениями вероятностей до и после того, как монета прибыла, - но нам это не нужно. Сигнал ошибки неявный.

Опять же, это поведение, а не мозг. Но многие верят, что мозг представляет мир с помощью распределения вероятностей; и существуют правдоподобные теории о том, как представить и обновить распределения вероятностей с помощью нейронов. Они сводятся к настройке активации популяции нейронов, представляющих распределение вероятностей. И вы делаете это регулируя силу входов для этих нейронов (будь то входы внутри популяции или вне ее). Таким образом, мозгу просто нужен сигнал о том, было ли вознаграждение получено, и использовать его для корректировки связей. Никакого сложного сигнала об ошибке в предсказаниях не требуется.

Таким образом, мозг может учиться на подкреплении с явным сигналом об ошибках в предсказании этого подкрепления или без него. Но в мозгу есть явный сигнал ошибки, кодируемый дофаминовыми нейронами. Что это говорит нам?

Я думаю, это подсказывает нам три интересных идеи о том, как работает мозг. Я думаю - полностью готов ошибиться в этом и к тому, чтобы существовал неопровержимый аргумент в пользу того, что нельзя построить мозг без явного сигнала об ошибках в прогнозировании вознаграждения.

Первая идея состоит в том, что наличие явного сигнала ошибки подразумевает существование простого представления мира в мозгу. Так называемое безмодельное представление, которое не представляет всех возможных результатов действия и, вероятно, также не использует вероятность. Быстро доступная справочная таблица значений действий, которая используется для выбора действий, когда время поджимает или мир неизменен. У нас уже есть несколько хороших представлений о том, где такие представления живут в мозгу. И все формы таких простых представлений, о которых мы знаем, требуют явного сигнала об ошибке между фактическими и прогнозируемыми значениями.

Вторая идея состоит в том, что то, что является одной концепцией обучения с подкреплением, на самом деле является двумя процессами в мозгу. Одна из концепций обучения с подкреплением заключается в том, что вы используете ошибку в своем прогнозе, чтобы изменить свою оценку ценности действия. Почему это два процесса в мозгу? Потому что мозг может захотеть отдельно контролировать краткосрочные и долгосрочные изменения в оценках ценности действия. А наличие явного сигнала ошибки, переносимого дофамином, позволяет ему делать и то, и другое с помощью одного сигнала.

Чтобы добиться долгосрочных изменений, мы могли бы скорректировать нашу оценку ценности действия, увеличивая или уменьшая силу связей с нейронами, представляющими это действие. Такая корректировка нашей оценки стоимости меняет долгосрочное поведение. И действительно, считается, что быстрый сигнал дофамина контролирует, могут ли некоторые связи в мозге изменить свою силу и в каком направлении. Здесь вам нужен знак сигнала ошибки, чтобы указать соединениям, в каком направлении нужно изменить.

Но мозг не обязательно хочет получать каждую частичку обратной связи, чтобы изменить связь между нейронами. Потому что это блокирует его на пути, из которого может быть трудно восстановить. В самом деле, когда мы сами пытаемся изменить силу этих связей, стимулируя входы нейрона, некоторые из них может оказаться чрезвычайно трудным для переключения. Это повышает вероятность того, что в краткосрочной перспективе мозг может захотеть застраховать свои ставки, изменив свои оценки ценности действия без изменения силы связи. И он может сделать это, вместо этого изменив реакцию нейронов на их входные данные. Если вы увеличиваете вероятность срабатывания нейрона для действия А, то вы увеличиваете его прогнозируемое значение; наоборот. Угадайте, какой передатчик в мозге имеет многие сотни статей, показывающих, что он изменяет реакцию нейронов, управляющих действием? Ага, дофамин.

В совокупности аргумент состоит в том, что существует явный сигнал ошибки, позволяющий мозгу контролировать изменения прогнозируемого значения на двух временных шкалах. И сделайте это, используя один сигнал ошибки, кодируемый дофамином: как для изменения силы соединения в долгосрочной перспективе, так и для изменения того, как реагируют нейроны в краткосрочной перспективе.

Третья идея заключается в том, что явный сигнал ошибки в мозгу - это эволюционная случайность. Построить систему для обучения на основе обратной связи легче с явным сигналом ошибки, чем с представлениями вероятностей по группе нейронов. У древних животных, вероятно, был один или два нейрона, которые распыляют дофамин или что-то подобное, как часть их контроля над движением. Мы можем найти множество беспозвоночных с несколькими тысячами нейронов, у которых дофамин изменяет движение, изменяя способы, которыми нейроны реагируют на их входные сигналы. С этой дофаминовой системой, возможно, путем наименьшего сопротивления для эволюции было бы кооптировать этот широковещательный сигнал, чтобы изменить связь между нейронами после ошибки. Что кажется потенциально проще, чем, с тех же грубых начинаний, сначала разработать распределенную систему для представления информации, которая не требует явного сигнала ошибки.

Теория вносит свой вклад в нейробиологию как в демонстрации того, что мозг не делает или не может делать, так и в том, что он может. Да, если мы допустим любую произвольную идею, это пространство практически бесконечно: теории, показывающие, что мозг не использует клубничное желе в качестве нейротрансмиттера или не выполняет вычисления, используя обратную сторону конверта и тупой карандаш, бесполезны.

Но здесь мы находим явный сигнал ошибки в мозгу, и это исключает целый класс способов обучения на основе обратной связи и ограничивает некоторые из них. Теория ошибок предсказания вознаграждения дофамина говорит нам столько же, сколько он не делает. , как что делает. В саду разветвляющихся дорожек мы должны быть рады некоторой помощи - а некоторые садовые дорожки сложнее разветвляющихся, чем мозг.

Хотите еще? Следуйте за нами в The Spike

Twitter: @markdhumphries

Понравилась эта история? Затем рассмотрите возможность регистрации, чтобы стать участником Medium: 5 долларов в месяц дают вам неограниченный доступ ко всем историям на Medium и поддерживают всех их авторов. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию: https://drmdhumphries.medium.com/membership