В этой серии публикаций я разобью развивающуюся область обучения с подкреплением причинно-следственной связи (CRL) на удобоваримые фрагменты блога. Это захватывающая область, которую возглавляют, в частности, Элиас Барейнбойм и Джудея Перл. Я постараюсь представить это таким образом, чтобы удовлетворить тех, кто жаждет некоторых математических подробностей, а также попытаться нарисовать более широкую картину того, почему это в целом полезно и важно. Каждый из этих постов в блоге будет в некотором роде самодостаточным. Возможно, речь пойдет о конкретной идее или исследовательской работе. В данном случае это просто грунтовка к тому, что будет дальше. Давайте начнем!

Эта серия

  1. Причинное подкрепление обучения
  2. Предварительные условия для CRL
  3. Задача 1: Обобщенное изучение политики
  4. Скоро: задание 2

Так о чем все это?

Все рассуждения, касающиеся фактов, кажутся основанными на причинно-следственной связи. Только с помощью этой связи мы можем выйти за рамки свидетельств нашей памяти и чувств. - Дэвид Хьюм [1].

В более раннем сообщении в блоге я упоминал, что Р.А. Фишер, один из отцов современной статистики, категорически возражал против причинных выводов без неопровержимых доказательств. См., Например, дискуссию о том, вызывает ли курение рак (например, [2], [3], [4]). Анахронизм, корреляция не подразумевает причинно-следственной связи, был (и является) причиной стольких заблуждений в науке. Во всяком случае, это подразумевает, что мы никогда не сможем утверждать, что A вызывает B, только на основе анализа данных. Но действительно ли статистика бессильна перед битвой за определение причинно-следственной связи?

В последнее время проявился большой интерес к методам, разработанным для вывода причинно-следственной связи из данных, особенно с распространением методов статистического обучения, например, в областях глубокого обучения. Графические методы, использующие DAG, были особенно популярны в последние годы, часто совпадая с теми, кто поддерживает причинную модель Неймана-Рубина [5] и структуру потенциальных результатов (например, [6]). Тем не менее, любой, кто знаком с работами Judea Pearl, такими как его научно-популярная книга «Книга причин» [7], вероятно, страстно верит в причинную революцию.

С ростом популярности неконтролируемых методов как в парадигмах машинного обучения, так и в парадигмах обучения с подкреплением, нет никаких сомнений в том, что вывод причинно-следственной структуры будет играть решающую роль в побуждении искусственных агентов принимать обоснованные решения, особенно в неопределенном мире. Агенты обучения с подкреплением заинтересованы в максимальном увеличении совокупного вознаграждения в течение длительного периода времени, следуя последовательности оптимальных действий. Обеспечение того, чтобы такой агент поддерживал причинную модель мира, в котором он действует, несомненно, будет способствовать созданию интерпретируемых моделей в области, в противном случае заполненной «черными ящиками».

Следует быть осторожным, чтобы не путать модели мира в модельно-ориентированном RL с причинной моделью. Причинно-следственная модель явно моделирует характер взаимосвязей базового процесса генерации данных, тогда как модель мира RL пытается имитировать прогнозные результаты из-за вмешательства агента. Причинно-следственные и графические модели также расширяют применимость текущих методов принятия решений, большинство из которых применимы только при узком наборе допущений. Учтите, что обучение с подкреплением в формулировке MDP явно требует марковских процессов. Как мы обсудим, это не учитывает некоторые фундаментальные процессы принятия решений в реальном мире, включая динамические режимы лечения в области персонализированной медицины.

Легко представить, как обычно интеллектуальный агент потребует долгосрочных немарковских способностей к планированию. Прежде чем продолжить развитие понятий причинности, следует пояснить, что мы работаем в рамках причинно-следственной лестницы, предложенной Иудеей Перл [8]. В этой структуре есть три ступени в причинной иерархии, каждая из которых добавляет дополнительную информацию, недоступную для моделей, принадлежащих к более низкой ступени. Это (1) информация наблюдений, (2) информация о вмешательстве и (3) контрфактическая информация, каждая из которых опирается на последнюю и включает в себя последнюю.

Обучение с подкреплением, естественно, относится к интервенционной ступени, поскольку агенты узнают об оптимальных действиях, наблюдая за результатами своего вмешательства в систему. Однако они не могут использовать интервенционные данные, чтобы ответить на контрфактический вопрос - «а что, если?» - вопросы стиля без дополнительной информации. Это очень важно для подтверждения большей части последующей теории.

Проницательный читатель отметит, что контрфактические величины по своей сути ненаучны, потому что их нельзя доказать - то, что произошло, произошло. Мы не утверждаем обратного. Скорее, контрфактические количества полезны для принятия решений - как это ясно из любой мысли о том, как мы рассуждаем в нашей повседневной жизни. Эти сообщения в блоге познакомят с математическим понятием причинности с точки зрения статистики и поместят его в контекст машинного обучения и искусственного интеллекта. В частности, основное внимание будет уделяться развитию и обсуждению теории обучения с причинным подкреплением (CRL), чтобы заинтересованный читатель был подготовлен к работе с современными исследованиями и результатами. Шесть задач, представленных Барейнбоймом [9], будут обсуждаться посредством обзора актуальной и недавней литературы. Наконец, состояние причинного подкрепления будет обсуждаться в контексте текущего ландшафта машинного обучения и поисков общего искусственного интеллекта (AGI).

В конечном итоге все сводится к следующему: RL занимается максимизацией совокупного вознаграждения в течение длительного периода времени, в то время как причинный вывод предоставляет набор инструментов и методов для объединения структурной информации о процессе генерации данных и самих данных, чтобы рассуждать и делать выводы до контрфактический характер - что бы произошло, если бы что-то было по-другому? Добавляя причинно-следственную структурную информацию к примерам эффективных методов RL, мы можем повысить эффективность обучения во многих областях. Такое сочетание теории из разных областей привело к успехам в разных областях.

Надеюсь, это заставило вас задуматься о том, как мы можем объединить эти поля. Далее мы разработаем несколько ключевых идей, которые нам понадобятся, чтобы проанализировать некоторые из наиболее продвинутых и современных исследований в этой области. Интересный материал!

Об авторе: Привет, я Сент-Джон, веду блоги о современных технологиях и интересных вещах для моего личного блога stjohngrimbly.com. В настоящее время меня, помимо прочего, интересуют машинное обучение и причинно-следственная связь. Надеюсь, вам понравится это быстрое чтение!

использованная литература

  1. Дэвид Хьюм, Исследование о человеческом понимании, Хакетт, 2-е издание, 1993.
  2. Рональд А. Фишер. Рак и курение. Природа, 182: 596–596, 1958.
  3. Сэр Рональд А. Фишер. Курение: полемика о раке. 1960 г.
  4. Л. Пенроуз. Рак и курение. Природа, 182: 1178–1178, 1958.
  5. Д. Рубин. Причинный вывод с использованием потенциальных результатов. Журнал Американской статистической ассоциации, 100: 322–331, 2005.
  6. Эндрю Гельман и др. Разрешение споров между j. жемчуг и d. рубин о причинном выводе. Https://statmodeling.stat.columbia.edu/2009/07/05/disputes_about/, 2009.
  7. Джудея Перл и Дана Маккензи. Книга "Почему". Basic Books, Нью-Йорк, 2018.
  8. Элиас Барейнбойм, Хуан Д. Корреа, Дулигур Ибелинг и Томас Икард. Об иерархии жемчуга и основаниях причинно-следственной связи. неопубликовано, 2020.
  9. Элиас Барейнбойм. Причинное подкрепление обучения. ICML 2020, 2020.

Первоначально опубликовано на https://stjohngrimbly.com 9 декабря 2020 г.