Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Q Learning Agent - бережная реализация

Обучение с подкреплением часто кажется широким полем с таким большим количеством методов обучения. Один из таких методов известен как Q-обучение. Этот метод обучения с подкреплением в последнее время набирает обороты. Он оказался очень успешным во многих приложениях, некоторые из которых можно найти здесь . В этом руководстве мы подробно рассмотрим, что такое Q Learning. Мы также реализуем Q Learning Agent, чтобы играть в игру принятия решений с конечной цепью Маркова, которую мы..

Практическое руководство по обучению с подкреплением: нестационарность

Изучение динамических миров и способы борьбы с ними Ссылки на серию: "Вступление" Многорукие бандиты | "Ноутбук" Нестационарный | "Ноутбук" Марковские процессы принятия решений | "Ноутбук" Уравнение Беллмана ч. 1 Добро пожаловать в третью статью из серии об обучении с подкреплением. В предыдущей статье мы исследовали первую серию из множества сценариев, которые мы собираемся решить, - Многорукие бандиты . В этой ситуации нам предоставляется среда с..

Опубликована моя книга Deep RL

Hi! Почти год назад издатель Packt связался со мной с предложением написать практическую книгу о современном глубоком обучении с подкреплением. Для меня, как для энтузиаста-самоучки Deep RL, это было немного пугающее решение, но после некоторых колебаний я согласился, оптимистично думая, что «это будет забавный опыт». На это ушло почти год, и это было намного больше. Не только много веселья, но и много новых знаний в этой области, тонны изученных статей, реализованные методы и..

Монте-Карло Обучение

Монте-Карло Обучение Обучение с подкреплением по методу Монте-Карло В этой статье я расскажу о методе обучения с подкреплением Монте-Карло. Я кратко рассмотрел метод динамического программирования (итерация значений и итерация политики) в предыдущей статье. В динамическом программировании нам нужна модель (агент знает переход MDP и вознаграждения), а агент выполняет планирование (как только модель становится доступной, агент должен планировать свои действия в каждом состоянии)...

(Очень) краткий учебник по квантовой механике и квантовым вычислениям

В ближайшие недели мы опубликуем серию из двух частей, подробно описывающих наше недавнее исследование квантовых вычислений. Автор: Тайлер Джонс Вступая в 20-й век, начинающему физику можно простить чувство, что основные законы Вселенной почти открыты. Среднестатистическому гражданину XIX века казалось, что правила классической механики диктуют поведение всех известных объектов, от типичного яблока, падающего на голову Исаака Ньютона, до вращения планет вокруг Солнца. Поведение в..

Обучение с подкреплением, байесовская статистика и вероятность тензорного потока: детская игра (часть 1)

Обучение с подкреплением имеет плохую репутацию из-за того, что оно чрезвычайно требовательно к данным, поэтому его можно реально обучить только на данных, созданных с помощью моделирования, например в компьютерной игре. Мы обсудим, как это можно исправить, используя байесовскую статистику, на легкодоступном небольшом примере. Во второй части этой серии блогов мы увидим, как это можно сделать на практике с помощью TensorFlow Probability, нового популярного инструмента от Google. Что..

Моделирование поощрительного дизайна: какая система вознаграждения является наиболее подходящей? часть 3

Моделирование стимулирующего дизайна Часть 1: Проблема дизайна системы вознаграждения и проблема среды моделирования Часть 2: Обзор результатов моделирования с помощью тепловой карты Часть 3: Анализ результатов моделирования В нашем предыдущем посте мы наблюдали за результатами моделирования, используя тепловые карты в качестве наглядного пособия. Тепловые карты эффективны при отображении нескольких данных на одном изображении (агенты, действия, вероятности и эпизоды), но..