Публикации по теме 'reinforcement-learning'


Обучение с подкреплением и глубокое обучение с подкреплением с помощью крестиков-ноликов
В этой статье я хочу поделиться своим проектом по внедрению методов обучения с подкреплением и глубокого обучения с подкреплением в игре Tic Tac Toe. Статья содержит: 1. Строгое определение игры как марковского процесса принятия решений. 2. Как реализовать метод обучения с подкреплением, называемый TD (0), для создания агента, который лучше всех действует в каждом состоянии игры. 3. Как реализовать глубокое обучение с подкреплением, которое очень похоже на раздел 2, но здесь я..

Улучшение товарного запаса агента Q-Learning за счет добавления повторяемости и формирования вознаграждения
Напоминание В прошлый раз мы создали агент Q-Learning, который совершает сделки на смоделированных и реальных биржевых таймсериях, пытаясь проверить, подходит ли эта область задач для обучения с подкреплением. Кстати, в следующей статье приводится полный код эксперимента, так что проверьте его . Напомним, что для проверки концепции мы использовали следующие синтетические данные: Синусоидальная функция была первой точкой привязки. Две кривые моделируют цены спроса и..

Введение в обучение с подкреплением (RL) - Часть 3 - «Конечные марковские процессы принятия решений»
Серия учебных пособий по обучению с подкреплением Конечные марковские процессы принятия решений Это третья часть серии руководств по RL, в которой представлен обзор книги Обучение с подкреплением: Введение. Второе издание." Ричард С. Саттон и Эндрю Дж. Барто. Эта книга доступна бесплатно «здесь . Эта статья является частью серии. Ознакомьтесь с полной серией: Часть 1 , Часть 2 , Часть 3 , Часть 4 , Часть 5 , Часть 6 и Часть 7 ! Глава 3 - Конечные марковские..

Переосмысление автономного агента: система поведения Q-Learning
Система поведения Q-Learning для воплощенных агентов Это эссе знакомит с системой поведения, основанной на Q-обучении, для воплощенных агентов, включая роботов и персонажей видеоигр. Самые последние истории успеха обучения с подкреплением (RL) были сосредоточены на достижении сверхчеловеческого уровня производительности в некоторых виртуальных задачах - будь то видеоигра или тест управления роботами. Отдельная и менее сенсационная ветвь обучения с подкреплением - это то, что можно..

Реализация алгоритма верхней доверительной границы
Реализация алгоритма верхней доверительной границы В этой статье мы покажем, как работает алгоритм UCB для задачи о многоруком бандите. Алгоритм UCB в двух словах В алгоритме UCB мы начинаем исследовать все машины на начальном этапе, а позже, когда мы находим машину с наивысшей долей вероятности, мы начинаем использовать ее, чтобы получить максимальное вознаграждение. Если вы хотите лучше понять это, вы можете увидеть Верхнюю границу достоверности для проблемы многоруких бандитов..

Реализация TD-Gammon с Keras
TD-Gammon - это искусственная нейронная сеть, обученная с помощью TD (λ), которая учится играть в нарды самостоятельно. В этом посте TD-Gammon 0.0 реализован на Python с использованием Keras и Tensorflow. Полное описание TD-Gammon дано в разделах Обучение с временной разницей и TD-Gammon и Практические вопросы в обучении с временной разницей . Пример использования TD-Gammon также приведен в книге Обучение с подкреплением: введение (Саттон и Барто). Код этой реализации можно найти..

Искусственное любопытство
Любой сценарий реального времени, в котором время является важной точкой данных, будь то моделирование, интеллектуальная электросеть или движения роботов, мы можем использовать класс алгоритмов, называемый обучением с подкреплением (RL), чтобы изучить оптимальную политику для агента, чтобы он может достичь заранее поставленной цели. Этой целью может быть любое количество вещей, таких как передача мощности между узлами с наименьшими затратами, обнаружение злоумышленников в системе..