Публикации по теме 'reinforcement-learning'


Обучение с подкреплением: навигация в системе метро
Вы находитесь на обзорной экскурсии по прекрасному городу Вене. Чтобы перемещаться по городу, предположим, что вы движетесь по одномерному промежутку (например, по карте метро). Вы хотите добраться до достопримечательности (собора Святого Стефана) в состоянии 15, чтобы сделать снимки, которые принесут вам наибольшую пользу, т. е. наибольшую награду. Чтобы попасть туда, у вас есть 4 действия: иди направо идти налево садитесь на метро M1 садитесь на метро M2 Чтобы найти..

Внедрение обучения с подкреплением с использованием процесса принятия решений Маркова [Учебное пособие]
Марковский процесс принятия решений , более известный как MDP , представляет собой подход к обучению с подкреплением для принятия решений в среде gridworld. Среда gridworld состоит из состояний в виде сеток. MDP пытается захватить мир в виде сетки, разделив его на состояния, действия, модели / модели перехода и награды. Решение для MDP называется политикой, и цель состоит в том, чтобы найти оптимальную политику для этой задачи MDP. Таким образом, любая задача обучения с..

Что такое физическая анимация?
Физическая анимация (PBA) - это область компьютерной графики, целью которой является создание физически правдоподобной анимации с использованием искусственного интеллекта (AI) . Анимации обычно воспроизводятся с использованием виртуального персонажа в смоделированной среде 2D или 3D. Хороший пример недавнего современного результата с использованием PBA показан ниже: Одно из основных различий между PBA и традиционной анимацией по ключевым кадрам заключается в том, что PBA могут..

Стратегия игры Bowl of Balls: советы по увеличению шансов на победу
Вы поклонник стратегических игр, в которых нужно выбирать числа и манипулировать ими? Если это так, вы можете попробовать игру Bowl of Balls (BOB) . В этой игре игроки выбирают два шара из миски с числами от 1 до 50 и стремятся достичь разницы между 5 и 15. Но это не так просто, как просто выбрать любые два шара — у игроков есть возможность сбросить один из двух. шары и вытяните новый до трех раз, прежде чем закончить свой ход. Побеждает игрок с наибольшей разницей мячей, а в случае..

Функция перехода состояния в обучении с подкреплением
Что такое функция перехода состояния в обучении с подкреплением (RL)? В RL функция перехода состояния в наиболее общем виде определяет вероятность перехода агента из одного состояния в другое, возможно, включая влияние управления как часть динамики. Функция перехода состояния может быть детерминированной или стохастической. Если функция детерминирована, то агент всегда будет переходить в одно и то же следующее состояние при том же текущем состоянии и управлении. Если функция перехода..

КУРСЫ
Обновлено 12.05.2020: MGT 8803 - Business Fundamentals for Analytics, ISYE 6748: Analytics Practicum (окончил со средним баллом 3.88) Обновлено 14.12.2020: ISYE 6740 - Computing Data Analytics, ISYE 6644 Simulation Обновлено 05.08.2020: ISYE 8803 - Специальные темы в многомерной аналитике (средний балл по-прежнему 4.0) tl, dr: Эта программа стоила каждого цента. С тех пор, как я стал участником этого опыта, я не только экспоненциально вырос в своей области, но и был..

Почему возникает проблема с теоремой о политическом градиенте в глубоком обучении с подкреплением
Или, как я люблю это называть, «Черная магия дисконтных факторов» Я впервые обнаружил эту проблему благодаря моему руководителю, профессору Прутьеру, когда проверял свое предложение о втором лабораторном занятии курса Обучение с подкреплением (EL2805), которое мы проводили в KTH в прошлом году осенью 2020 года. Проблема достаточно серьезна, чтобы затронуть большинство алгоритмов глубокого обучения с подкреплением, включая A3C [7], SAC [8], алгоритм ACKTR [9] и другие. Примерно..