Мысли и теория

Обучение с подкреплением

Обзор исторических, современных и будущих приложений этой специальной формы машинного обучения

СОДЕРЖАНИЕ

1. Введение
2. Исторические события (до 1992 г.)
- 2.1. Параллельные разработки
- - 2.1.1. Обучение методом проб и ошибок
- - 2.1.2. Проблема оптимального управления
- - 2.1.3. Методы обучения по временной разнице
- 2.2. Комбинированные разработки
3. Современные разработки (после 1992 г.)
- 3.1. Разработки в настольных играх
- 3.2. Разработки в компьютерных играх
4. Текущие разработки
5. Будущие разработки
6. Заключение
7. Ссылки

1. Введение

Обучение с подкреплением - это не новая концепция, но она была разработана и созрела за 70 лет академической строгости. По сути, обучение с подкреплением - это метод машинного обучения, с помощью которого алгоритм может принимать решения и действовать в заданной среде, а также узнает, какие соответствующие решения нужно принимать, путем повторяющихся действий методом проб и ошибок. Академический дискурс обучения с подкреплением преследовал три параллельных «нити» исследования (метод проб и ошибок, оптимальное управление и временная разница), прежде чем был объединен в исследованиях в 1990-х годах. Затем обучение с подкреплением позволило овладеть игрой в шахматы, го и бесчисленные электронные игры. Современные приложения обучения с подкреплением позволяют предприятиям оптимизировать, контролировать и отслеживать соответствующие процессы с феноменальным уровнем точности и изящества. В результате будущее обучения с подкреплением является одновременно захватывающим и увлекательным, поскольку исследование направлено на улучшение интерпретируемости, подотчетности и надежности алгоритма.

2. Исторические события (до 1992 г.)

Саттон и Барто (2018) обсуждают три нити обучения с подкреплением: 1) обучение методом проб и ошибок; 2) проблема оптимального управления; и 3) методы обучения разнице во времени. Эти нити исследовались независимо исследователями, прежде чем они переплелись в 1980-х, что привело к появлению концепции обучения с подкреплением в том виде, в каком мы ее знаем сегодня.

2.1. Параллельные разработки

2.1.1. Обучение методом проб и ошибок

Наблюдая за интеллектом животных, Торндайк (1911) определил метод проб и ошибок как Закон эффекта, связанный с чувством удовлетворения или дискомфорта, возникающим в данной ситуации. Эта концепция была интегрирована в аналог машинного обучения, когда Мински (1954) постулировал использование SNARC (стохастических нейронно-аналоговых калькуляторов подкрепления), которые получили дальнейшее развитие, когда Мински (1961) обратился к проблеме присвоения кредитов; это то, как распределить успех между многими решениями, которые, возможно, были задействованы в его создании. Исследования вычислительных процессов проб и ошибок были обобщены на распознавание образов (Clark & ​​Farley 1955; Farley & Clark 1954), а затем были адаптированы к контролируемому обучению с использованием информации об ошибках для обновления весов соединений (Rosenblatt 1962; Widrow & Hoff 1960 ). Из-за размытия различий между традиционными функциями проб и ошибок и ошибок и потерь в течение 1960-х и 1970-х годов было очень мало публикаций, конкретно посвященных обучению с подкреплением. Одним из таких исследователей, продолжавших заниматься в этой области, был Джон Андреэ, который разработал систему STELLA (Andreae 1963), которая учится через взаимодействие с окружающей средой, и машины с внутренним монологом (Andreae & Cashin 1969), и потом машины, которым можно научиться у учителя (Andreae 1977). К сожалению, как обсуждают Саттон и Барто (2018), новаторское исследование Андреэ было малоизвестным и не сильно повлияло на последующие исследования обучения с подкреплением.

2.1.2. Проблема оптимального управления

Исследование оптимального управления началось в 1950-х годах и определяется как контроллер, позволяющий минимизировать меру поведения динамической системы во времени (Sutton & Barto 2018). Беллман (1957a) опирался на работы Гамильтона (1833, 1834) и Якоби (1866), чтобы разработать метод, специфичный для обучения с подкреплением, который динамически определяет функциональное уравнение, используя состояние динамической системы, и возвращает функцию оптимального значения. Эту функцию оптимального возврата теперь часто называют уравнением Беллмана, которое технически представляет собой класс методов, используемых для решения задач управления, и является основным предметом книги Беллмана Динамическое программирование (Bellman 1957a ). Далее Беллман представил марковский процесс принятия решений (1957b), который он определяет как дискретную стохастическую версию задачи оптимального управления, которую Ховард (1960) использовал для определения метода итераций политики для марковских процессов принятия решений. В 1960-х и 1970-х годах исследований в области оптимального управления не проводилось; однако Брайсон (1996) отмечает, что с 1980-х годов было опубликовано много статей в таких областях, как частично наблюдаемые марковские процессы принятия решений, а также их приложения, методы аппроксимации, асинхронные методы и современные трактовки динамического программирования.

2.1.3. Методы обучения с временной разницей

Основываясь на математической дифференциации, обучение с разницей во времени направлено на получение прогноза на основе набора известных переменных. Но важное отличие состоит в том, что это происходит путем начальной загрузки из текущей оценки функции ценности. Он похож на метод Монд-Карло (Хаммерсли 1964), но он может корректировать окончательные прогнозы на более поздних этапах итерации, прежде чем станет известен окончательный результат (чего не может Монте-Карло); как показано Саттоном (1988) на примере, где в данное воскресенье создается прогноз на следующую субботу с последующим обновлением субботнего прогноза в пятницу до того, как становится известна фактическая погода в субботу.

Истоки методов временного различия уходят корнями в психологию обучения животных (Торндайк, 1911), особенно в понятие вторичных подкреплений. Фактически, когда вторичное подкрепление (например, стимул) сочетается с первичным подкреплением (например, пищей или болью), вторичное подкрепление приобретает те же свойства, что и первое. Мински (1954) был первым, кто осознал важность методов разницы во времени для обучения с подкреплением, хотя Сэмюэл (1959), казалось, был вторым, осознавшим эту важность, но не упомянувшим Мински в своей работе. Мински (1961) основывается на работе Сэмюэля (1959) и усиливает важность этой концепции для теорий обучения с подкреплением. Метод временной разницы и метод проб и ошибок оказались запутанными, когда Клопф (1972, 1975) исследовал обучение с подкреплением в больших системах, концептуализированное отдельными субкомпонентами более крупной системы, каждый со своими собственными возбуждающими входами в виде поощрения и сдерживающие факторы в качестве наказания, и каждое из них может усиливать друг друга.

2.2. Комбинированные разработки

Используя идеи Клопфа, Саттон (1978a, 1978b, 1978c, 1984) далее развивает связи с теорией обучения животных и далее исследует правила, по которым обучение управляется изменениями во временных последовательных предсказаниях. Эта работа фактически открыла академические ворота для исследований в области обучения с подкреплением, поскольку в последующие годы произошли многочисленные важные события, такие как:

Три нити генезиса обучения с подкреплением были окончательно объединены, когда Уоткинс (1989) разработал Q-Learning (Уоткинс, 1989), который был усилен Вербосом (1987), который выступал за конвергенцию метода проба и -. обучение ошибкам и динамическое программирование. После этого исследователи изучили автоматизированные электронные реализации обучения с подкреплением и смогли добиться потрясающих результатов.

3. Современные разработки (после 1992 г.)

3.1. Развитие настольных игр

В 1992 году Тесауро смог реализовать эти концепции при разработке программы TD-Gammon (Tesauro 1994), которая смогла достичь мастер-уровня в игре в нарды. Исследования сместились в сторону попытки применить этот успех к игре в шахматы (Baxter et al. 2000, 2001; Thrun 1995). IBM разработала DeepBlue с единственной целью - играть в шахматы. Однако он страдал от проклятия размерности, потому что алгоритм требовал слишком много времени для расчета, он не мог заглянуть достаточно далеко в будущее, и он стал печально известен своими очень плохими дебютными ходами (Szita 2012). Тем не менее DeepBlue в 1997 году выиграла у чемпиона мира (King 1997; Levy 1997; Newborn 2000; Santo 1997).

Затем исследователи занялись более крупной и сложной игрой: вперед. Хотя было сделано много попыток научиться играть в эту игру (Bouzy 2006a, 2006b; Bouzy & Helmstetter 2004; Coulom 2007a, 2007b; Dahl 1999; Gelly & Silver 2008) »; Gelly et al. 2006 ; Schraudolph et al. 2001 ; Silver et al. 2008 ), никто не смог победить чемпиона мира до тех пор, пока AlphaGo от Google не выиграла титул в 2016 году ( Borowiec 2016 ; Мойер 2016). Разница между DeepBlue и AlphaGo заключалась в том, что DeepBlue использовал методологию параллельного поиска на основе дерева с индивидуализированными аппаратными достижениями для эффективного использования грубой силы для расчета всех ходов, необходимых для победы в игре (Borowiec 2016; Newborn 2000) ; но этот метод невозможен в Go, так как существует слишком много ходов и возможных комбинаций, из-за которых вычислительные затраты были бы невозможны. Для сравнения, AlphaGo использовала комбинацию моделирования Монте-Карло, поиска по дереву Монте-Карло, байесовской оптимизации и физического наблюдения за предыдущими матчами чемпионов мира (Chen et al. 2018; Fu 2016; Wheeler 2017) по порядку. для построения достаточно сильной модели и без необходимости выполнять грубые вычисления будущих ходов. Эти разработки знаменуют собой значительный прогресс в мире обучения с подкреплением и позволяют всему миру увидеть, какие возможности есть у этой конкретной техники машинного обучения.

3.2. Разработки в компьютерных играх

Когда в 1980-х и 1990-х годах росли дети, многие люди играли в видеоигры Atari. Они были выпущены в 1977 году и содержали 526 игр, включая такие классические, как Pong, Breakout и Space Invaders (Википедия 2020). Эмулятор Atari предоставил идеальную среду для алгоритма обучения с подкреплением, чтобы научиться играть в игру (Hausknecht et al. 2014; Kaiser et al. 2019; Mnih et al. 2013) благодаря своей пиксельной основе. отображение и простые варианты управления. Через некоторое время поиграв в игры, исследователи заметили, что алгоритм использует несколько очень впечатляющих приемов; например, в Breakout можно было просверлить отверстие, чтобы выиграть игру с меньшими усилиями. Это свидетельствует о силе обучения с подкреплением, в частности, о том, что оно способно изучать определенные правила и практики, которые иначе программно не сообщались модели (Berges et al. Nd; Patel et al. 2019; TwoMinutePapers 2015 »). Многие другие компьютерные игры также претерпели изменения с использованием обучения с подкреплением, включая такие игры, как Snake, Flappy Bird, Angry Birds и Candy Crush. Современные компьютерные игры значительно продвинулись вперед по сравнению с играми Atari, и они обеспечивают гораздо более сложную и динамичную среду, которая предоставляет множество возможностей обучения для приложений обучения с подкреплением.

4. Текущие события

Хотя история обучения с подкреплением была увлекательной, применение обучения с подкреплением в наше время действительно захватывающе. В недавней статье Гаричл (2018) перечисляет некоторые примеры обучения с подкреплением, применяемого сегодня в промышленности; в том числе: управление ресурсами в компьютерных кластерах, управление светофорами, робототехника, настройка веб-систем, химия, реклама и игры. Lorica (2017) объединяет эти возможности в трех основных темах приложений, которые могут быть буквально применены к любому бизнесу в любой отрасли: оптимизация (например, планирование процессов, управление доходностью, цепочка поставок), контроль (например, автономные транспортные средства, автоматизация производства, управление ветряными турбинами), а также для мониторинга и обслуживания (например, контроль качества, профилактическое обслуживание, мониторинг запасов). Все эти приложения предоставляют среду, действие, ответ и метод оптимизации, поэтому позволяют применять алгоритмы обучения с подкреплением к этим конкретным случаям.

Проще говоря, предприятиям следует стремиться внедрить обучение с подкреплением в свои стратегии искусственного интеллекта, когда они сталкиваются с любым из следующих сценариев (Chahill 2017):

  • Они используют моделирование, потому что система или процесс слишком сложны (или слишком физически опасны) для обучения машин методом проб и ошибок; или
  • Они имеют дело с большими пространствами состояний; или
  • Они стремятся расширить возможности человеческого анализа и экспертов в предметной области, оптимизируя операционную эффективность и обеспечивая поддержку принятия решений.

5. Будущие разработки

Будущее обучения с подкреплением - это в высшей степени субъективная дискуссия, в которой многие люди могут иметь совершенно разные мнения. Есть два основных направления будущего обучения с подкреплением, которые можно обобщить следующим образом:

  1. Будущее светлое, есть широкое внедрение и внедрение обучения с подкреплением, и оно продолжает оказывать положительное влияние на человечество; или
  2. Будущее мрачно, люди восстают против прогрессирующего проникновения обучения с подкреплением в их жизнь, а будущие разработки ИИ сосредоточены на других методах, помимо обучения с подкреплением.

Феноменальный прогресс, произошедший в мире обучения с подкреплением, и положительное влияние, которое оно уже оказало на наше общество, указывает на то, что эта тенденция будет продолжаться и будет продолжаться в будущем. Godbout (2018) обсуждает светлое будущее обучения с подкреплением, в то время как Кирште (2019) обсуждает, что обучение с подкреплением продолжит вносить существенный прогресс и сделает повседневную жизнь бизнеса проще и эффективнее. Из двух вариантов наиболее вероятным является это светлое будущее.

Тем не менее, было бы упущением не обсудить некоторые из опасений общества, стоящих за развитием ИИ, и некоторую тревогу, вызванную некоторыми голливудскими фильмами об ИИ. Фрай (2019) обсуждает некоторые вопросы, касающиеся искусственного интеллекта и, в частности, обучения с подкреплением, отмечая, что обучение с подкреплением небезопасно из-за спецификации задачи (трудности с точным указанием того, какую задачу должен выполнять агент ИИ) и небезопасного исследования (агент учится методом проб и ошибок, подразумевая, что сначала он должен сделать ошибку, чтобы узнать, чего не следует делать), что может привести к инцидентам и травмам (или еще хуже) для наших сограждан. Особенно если рассматривать пример беспилотных автомобилей. Knight (2017) подробно исследует этот пример, уделяя особое внимание беспилотному автомобилю Nvidia, который научился управлять автомобилем не с помощью какой-либо данной ему программной команды, а вместо этого посредством наблюдения за другими водителями. Хотя это само по себе впечатляющее достижение, основная проблема заключается в том, что создатели не знают, как и почему компьютер принимает решения, и это, несомненно, поставит жизни людей под угрозу. Следовательно, есть несколько улучшений, которые необходимо внести в обучение с подкреплением, прежде чем оно станет широко распространенным и принятым более широким сообществом. Те, которые касаются интерпретируемости для создателей и ответственности перед пользователями. Как только эти две проблемы будут устранены, искусственный интеллект и обучение с подкреплением, несомненно, станут более надежными.

6. Заключение

Обучение с подкреплением прошло феноменально долгий путь с момента своего появления в 1950-х годах; и ему еще предстоит пройти долгий путь развития и зрелости. Начиная с теоретических и концептуальных достижений, достигнутых до 1990-х годов, обучение с подкреплением победило шахматы и го, а также бесчисленные электронные компьютерные игры. Обучение с подкреплением также начало применяться в бизнесе и промышленности и продолжает доказывать свою полезность и полезность в постоянно растущих задачах нашего современного общества. Будущее обучения с подкреплением скоро проникнет в нашу повседневную жизнь множеством различных способов; но не раньше, чем будут исправлены несколько фундаментальных проблем с его интерпретируемостью, подотчетностью и достоверностью. Тем не менее, будущее обучения с подкреплением кажется долгим и ярким, и мы продолжим видеть много замечательных вещей из этой мощной области искусственного интеллекта.

7. Ссылки

Андерсон, К. 1986, Обучение и решение проблем с помощью многоуровневых коннекционистских систем (адаптивное, стратегическое обучение, нейронные сети, обучение с подкреплением), докторская диссертация, Массачусетский университет в Амхерсте.

Андреэ Дж. 1963, «Стелла: Схема для обучающей машины», Труды МФБ, т. 1, вып. 2, с. 497–502, ISSN: 1474–6670, DOI: 10.1016 / S1474–6670 (17) 69682–4.

Андреэ, Дж. 1977, Мышление с помощью обучаемой машины, ISBN: Academic Press, Лондон.

Андреэ Дж. И Кашин П. 1969, «Обучающаяся машина с монологом», Международный журнал исследований человека и машины, т. 1, вып. 1, с. 1–20, ISSN: 0020–7373, DOI: 10.1016 / S0020–7373 (69) 80008–8.

Барто А. и Саттон Р. 1981a, Компоненты поиска цели для адаптивного интеллекта: начальная оценка.

Барто, А. и Саттон, Р. 1981b, «Ориентир обучения: иллюстрация ассоциативного поиска», Биологическая кибернетика, т. 42, нет. 1, с. 1–8, ISSN: 0340–1200, DOI: 10.1007 / BF00335152.

Барто, А. и Саттон, Р. 1982, «Моделирование предвосхищающих реакций при классической обусловленности нейроноподобным адаптивным элементом», Behavioral Brain Research, vol. 4, вып. 3, с. 221–35, ISSN: 0166–4328, DOI: 10.1016 / 0166–4328 (82) 90001–8.

Барто А., Саттон Р. и Андерсон К. 1983, «Нейроноподобные адаптивные элементы, которые могут решать сложные проблемы управления обучением», Транзакции IEEE по системам, человеку и кибернетике, т. СМЦ-13, вып. 5, с. 834–46, ISSN: 0018–9472, DOI: 10.1109 / TSMC.1983.6313077.

Бакстер Дж., Триджелл А. и Уивер Л. 2000, «Обучение игре в шахматы с использованием временных различий», Машинное обучение, т. 40, нет. 3, с. 243, ISSN: 0885–6125, DOI: 10.1023 / A: 1007634325138.

Бакстер Дж., Триджелл А. и Уивер Л. 2001, «Обучение с подкреплением и шахматы», Машины, которые учатся играть в игры, стр. 91–116.

Беллман, Р. 1957a, Динамическое программирование, ISBN: 069107951x, Princeton University Press.

Беллман, Р. 1957b, «Марковский процесс принятия решений», Journal of Mathematics and Mechanics, vol. 6, вып. 5, с. 679–84, ISSN: 00959057.

Бергес В., Рао П. и Прайзант Р. nd, Обучение с подкреплением для прорыва Atari, Стэнфордский университет, ‹ https://cs.stanford.edu/~rpryzant/data /rl/paper.pdf ›.

Боровец, С. 2016, Alphago Seals 4–1 Победа над гроссмейстером Го Ли Седолом, The Guardian, просмотрено 31 мая 2020 г., ‹ https://www.fbe.hku.hk/f /page/75261/Reading%201_AlphaGo%20seals%204-1%20Victory%20over%20Go%20Grandmaster%20Lee%20Sedol.pdf ›.

Бузи, Б. 2006a, «Связывание неглубокого и выборочного глобального поиска по дереву с Монте-Карло для Go», Компьютеры и игры, т. 3846, стр. 67–80, DOI: 10.1007 / 11674399_5, Springer Berlin Heidelberg, Berlin, Heidelberg.

Бузи, Б. 2006b, «Методы сокращения движений для игры в Монте-Карло», Достижения в компьютерных играх, т. 4250, стр. 104–19, DOI: 10.1007 / 11922155_8.

Бузи Б. и Хелмстеттер Б. 2004, «Monte-Carlo Go Developments», Advances in Computer Games, стр. 159–74, Springer.

Брайсон, А. 1996, «Оптимальное управление», IEEE Control Systems, т. 16, вып. 3, с. 26–33, ISSN: 1066–033X, DOI: 10.1109 / 37.506395.

Чахилл, Д. 2017, Почему обучение с подкреплением может быть лучшим методом искусственного интеллекта для сложных промышленных систем, просмотрено 31 мая 2020 г., ‹ https://www.bons.ai/blog/ai- Стратегии-индустриальные-системы-обучение с подкреплением ›.

Чен, Ю., Хуанг, А., Ван, З., Антоноглу, И., Шриттвизер, Дж. И Сильвер, Д. 2018, 'Байесовская оптимизация в Alphago', arXiv.org, ISSN : 2331–8422, ‹ https://arxiv.org/pdf/1812.06855.pdf ›.

Кларк В. и Фарли Б. 1955, Обобщение распознавания образов в самоорганизующейся системе, Труды конференции Western Joint Computer Conference, 1–3 марта 1955 г., стр. 86– 91, DOI: 10.1145 / 1455292.1455309, ‹ https://dl.acm.org/doi/abs/10.1145/1455292.1455309 ›.

Кулом, Р. 2007a, Вычисление оценок Эло для паттернов движений в игре го, Мастерская компьютерных игр, ‹ https://hal.inria.fr/inria-00149859/document › .

Кулом, Р. 2007b, «Операторы эффективной селективности и резервного копирования в поиске по дереву методом Монте-Карло», в Х. Херик, П. Чанкарини и Х. Донкерс. (ред.), Компьютеры и игры, т. 4630, стр. 72–83, Springer.

Даль, Ф. 1999, Honte, программа для игр с использованием нейронных сетей, Машины, которые учатся играть в игры, стр. 205–23, ‹ http: //citeseerx.ist.psu .edu / viewdoc / download? doi = 10.1.1.50.2676 & rep = rep1 & type = pdf ›.

Фарли Б. и Кларк В. 1954, «Моделирование самоорганизующихся систем с помощью цифрового компьютера», Труды профессиональной группы IRE по теории информации, том. 4, вып. 4, с. 76–84, ISSN: 2168–2690, DOI: 10.1109 / TIT.1954.1057468.

Фрай, К. 2019, Опасности обучения с подкреплением в реальном мире, просмотрено 31 мая 2020 г., ‹ https://faculty.ai/blog/the-dangers-of-reinforcement- обучение в реальном мире / ›.

Фу М. 2016, 'Alphago and Monte Carlo Tree Search: The Simulation Optimization Perspective', in 2016 Winter Simulation Conferences, IEEE, pp. 659–70, ‹ https: // doi-org .ezproxy.lib.uts.edu.au / 10.1109 / WSC.2016.7822130 ›.

Гаричл 2018, Применение обучения с подкреплением в реальном мире, просмотрено 31 мая 2020 г., ‹ https://towardsdatascience.com/applications-of-reinforcement-learning-in-real-world-1a94955bcd12 ›.

Гелли, С. и Сильвер, Д. 2008, Достижение мастерского уровня игры в компьютерной игре 9 X 9, в AAAI, vol. 8, pp. 1537–40, ‹ https://www.aaai.org/Papers/AAAI/2008/AAAI08-257.pdf ›.

Гелли, С., Ван, Ю., Муньос, Р., Тейтауд, О. 2006, Модификация Uct с использованием шаблонов в Монте-Карло Го, ‹ https://hal.inria.fr / inria-00117266v3 / document ›.

Годбаут, C. 2018, Яркое будущее обучения с подкреплением, просмотрено 31 мая 2020 г., ‹ https://medium.com/apteo/the-bright-future-of-reinforcement-learning -a66173694f88 ›.

Гамильтон, W. 1833, Об общем методе выражения путей света и планет с помощью коэффициентов характеристической функции, ISBN: Printed by P.D. Харди.

Гамильтон, W. 1834, О приложении к динамике общего математического метода, ранее применявшегося в оптике, ISBN: Printed by P.D. Харди.

Хаммерсли, Дж. 1964, Методы Монте-Карло, ISBN: Метуэн, Лондон.

Хаускнехт, М., Леман, Дж., Мииккулайнен, Р. и Стоун, П., 2014, «Нейроэволюционный подход к общей игре в Atari», Транзакции IEEE по вычислительному интеллекту и ИИ в играх, том . 6, вып. 4, с. 355–66, ISSN: 1943–068X, DOI: 10.1109 / TCIAIG.2013.2294713.

Ховард Р. 1960, «Динамическое программирование и марковские процессы».

Jacobi, K. 1866, Vorlesungen Über Dynamik Nebst Fünf Hinterlassenen Abhandlungen Desselben Herausgegeben Von A. Clebsch: Unter Beförderung Der Königlich Preussischen Akademie Der Wissenschaften.

Кайзер, Л., Бабайзаде, М., Милош, П., Осински, Б., Кэмпбелл, Р., Чеховски, К., Эрхан, Д., Финн, К., Козаковски, П., Левин, С., Мохиуддин А., Сепасси Р., Такер Г. и Михалевски Х. 2019, Модельно-ориентированное обучение с подкреплением для Atari, в ICLR, arXiv.org, https: // arxiv.org/pdf/1903.00374.pdf ›.

Кинг, Д. 1997, «Каспаров против. Deeper Blue: The Ultimate Man Vs. Machine Challenge », Machine Challenge, Трафальгарская площадь.

Кирште, М. 2019, Чего ожидать от обучения с подкреплением?, просмотрено 31 мая 2020 г., ‹ https://towardsdatascience.com/what-to-expect-from-reinforcement-learning- a22e8c16f40c ›.

Клопф, А. 1972, Функции мозга и адаптивные системы: теория гетеростаза.

Клопф А. 1975, «Сравнение естественного и искусственного интеллекта», Бюллетень ACM SIGART, вып. 52, с. 11–3, ISSN: 0163–5719, DOI: 10.1145 / 1045236.1045237.

Клопф А. 1988, «Нейрональная модель классической обусловленности», Психобиология, т. 16, вып. 2, с. 85–125, ISSN: 0889–6313, DOI: 10.3758 / BF03333113.

Knight, W. 2017, Темная тайна в сердце Ай, просмотрено 31 мая 2020 г., ‹ https://www.technologyreview.com/2017/04/11/5113/the -темный-секрет-в-сердце-ИИ / ›.

Леви, С. 1997, «Человек против. Machine », Newsweek, vol. 129, нет. 18, с. 50–6, ISSN: 00289604.

Лорика, Б. 2017, Практическое применение обучения с подкреплением в промышленности: обзор коммерческих и промышленных приложений обучения с подкреплением, просмотрено 31 мая 2020 г., ‹ https://www.oreilly.com / радар / практические-приложения-обучения-подкрепления в отрасли / ›.

Мински, М. 1954, Теория нейроаналоговых систем подкрепления и ее приложение к проблеме модели мозга, докторская диссертация, Принстонский университет.

Мински М. 1961, «Шаги к искусственному интеллекту», Proceedings of the IRE, vol. 49, нет. 1, с. 8–30, ISSN: 0096–8390, DOI: 10.1109 / JRPROC.1961.287775.

Мних В., Кавукчуоглу К., Сильвер Д., Грейвс А., Антоноглу И., Виерстра Д. и Ридмиллер М. 2013, Игра в Atari с глубоким обучением с подкреплением, ArXiv. org, ‹ https://arxiv.org/pdf/1312.5602.pdf ›.

Мойер, К. 2016, Как Google Alphago победил чемпиона мира по го, The Atlantic, просмотрено 31 мая 2020 г., ‹ https://www.theatlantic.com/technology/archive/2016/ 03 / невидимый-противник / 475611 / ›.

Новорожденный, М. 2000, «Вклад Deep Blue в ИИ», Анналы математики и искусственного интеллекта, т. 28, вып. 1, с. 27–30, ISSN: 1012–2443, DOI: 10.1023 / A: 1018939819265.

Патель, Д., Хазан, Х., Сондерс, Д., Сигельманн, Х., Козма, Р., 2019, «Повышение устойчивости политик обучения с подкреплением после перехода на платформу нейронных сетей с повышенным уровнем шума, применяемую в игре Atari Breakout Game», Нейронные сети, т. 120. С. 108–15, ISSN: 0893–6080.

Розенблатт, Ф. 1962, Принципы нейродинамики: персептроны и теория мозговых механизмов, ISBN: Spartan Books, Вашингтон, округ Колумбия.

Самуэль А. 1959, «Некоторые исследования машинного обучения с использованием игры в шашки», IBM Journal of Research and Development, vol. 3, вып. 3, с. 210–29, ISSN: 0018–8646, DOI: 10.1147 / rd.33.0210.

Санто Б. 1997, «IBM Tweaks Deep Blue для человеко-машинного реванша», Electronic Engineering Times, вып. 946, с. 111–2, ISSN: 0192–1541.

Шраудольф Н., Даян П. и Сейновски Т. 2001, Обучение оценке позиций Го с помощью методов временной разницы, Вычислительный интеллект в играх, стр. 77–98, Springer, https : //snl.salk.edu/~schraudo/pubs/SchDaySej01.pdf ›.

Сильвер, Д., Саттон, Р., Мюллер, М., 2008, «Образцовое обучение и поиск с постоянными и временными воспоминаниями», на Международной конференции по машинному обучению, стр. 968–75.

Саттон, Р. 1978a, Поддержка теории обучения для теории единого канала мозга, ISBN.

Саттон, Р. 1978b, «Теория единственного канала: нейронная теория обучения», Бюллетень теории мозга, т. 3, вып. 3, с. 72–4.

Саттон, Р. 1978c, Единая теория ожидания в классическом и инструментальном кондиционировании, ISBN.

Саттон, Р. 1984, Присвоение временных кредитов в обучении с подкреплением, докторская диссертация, ProQuest Dissertations Publishing.

Саттон, Р. 1988, «Обучение прогнозированию с помощью методов временных различий», Машинное обучение, т. 3, вып. 1, с. 9–44, ISSN: 0885–6125, DOI: 10.1023 / A: 1022633531479.

Саттон, Р. и Барто, А. 1981a, «Адаптивная сеть, которая конструирует и использует внутреннюю модель своего мира», Теория познания и мозга, т. 4, вып. 3, с. 217–46.

Саттон, Р. и Барто, А. 1981b, «К современной теории адаптивных сетей: ожидание и предсказание», Psychological Review, vol. 88, нет. 2, с. 135–70, ISSN: 0033–295X, DOI: 10.1037 / 0033–295X.88.2.135.

Саттон, Р. и Барто, А. 1987, «Модель разницы во времени классической обусловленности», в Протоколах девятой ежегодной конференции Общества когнитивных наук, Сиэтл, Вашингтон, стр. 355– 78.

Саттон, Р. и Барто, А. 1990, «Производные от времени модели павловского подкрепления», в М. Габриэль и Дж. Мур (ред.), Обучение и вычислительная нейробиология: основы адаптивных сетей , стр. 497–537, MIT Press, Кембридж, Массачусетс.

Саттон, Р. и Барто, А. 2018, Обучение с подкреплением: Введение, второе издание, ISBN: 9780262039246, MIT Press, Кембридж, Массачусетс, ‹ https: //web.stanford. edu / class / mental209 / Readings / SuttonBartoIPRLBook2ndEd.pdf ›.

Сита, I. 2012, Обучение с подкреплением в играх, М. Виринг и М. ван Оттерло (ред.), Обучение с подкреплением: современное состояние, стр. 539–77. , DOI: 10.1007 / 978–3–642–27645–3_17, Springer Berlin Heidelberg, Берлин, Гейдельберг, ‹ https://doi.org/10.1007/978-3-642-27645-3_17 ›.

Тесауро, Г. 1986, «Простые нейронные модели классического кондиционирования», Биологическая кибернетика, т. 55, нет. 2–3, с. 187–200, ISSN: 0340–1200, DOI: 10.1007 / BF00341933.

Тесауро, Г. 1994, «Td-Gammon, самообучающаяся программа игры в нарды, достигает мастерского уровня игры», Neural computing, vol. 6, вып. 2, с. 215–9, ISSN: 0899–7667.

Торндайк, E. 1911, Разведка животных: экспериментальные исследования, ISBN: 9780765804822, The Macmillan Company.

Трун С. 1995, Обучение игре в шахматы, в Advances in Neural Processing Systems, pp. 1069–76, ‹ http://papers.neurips.cc/paper /1007-learning-to-play-the-game-of-chess.pdf ›.

TwoMinutePapers 2015, Deep Q-Learning от Google Deepmind в игре Atari Breakout, просмотрено 31 мая 2020 г., ‹ https://www.youtube.com/watch?v=V1eYniJ0Rnk ›.

Уоткинс, C. 1989, Обучение на основе отложенных вознаграждений, докторская диссертация, https://www.researchgate.net/publication/33784417_Learning_From_Delayed_Rewards ›.

Вербос, П. 1987, Построение и понимание адаптивных систем: статистический / численный подход к автоматизации производства и исследования мозга, Транзакции IEEE по системам, человеку и кибернетике, т. 17, нет. 1, с. 7–20, ISSN: 0018–9472, DOI: 10.1109 / TSMC.1987.289329, ‹ https://www.aaai.org/Papers/Symposia/Fall/1993/FS-93-02/FS93-02-003. pdf ›.

Уилер, Т. 2017, Alphago Zero - Как и почему это работает, просмотрено 31 мая 2020 г., ‹ http://tim.hibal.org/blog/alpha-zero-how-and -почему-это-работает / ›.

Уидроу Б. и Хофф М. 1960, «Adaptive Switching Circuits», 1960 Wescon Convention Record Part Iv, стр. 94–104, MIT Press, Cambridge, MA.

Wikipedia 2020, Atari 2600, просмотрено 31 мая 2020 г., ‹ https://en.wikipedia.org/wiki/Atari_2600 ›.