Публикации по теме 'reinforcement-learning'


Новый взгляд на обучение с подкреплением: шаг к общему искусственному интеллекту с Super Mario
Новый взгляд на обучение с подкреплением: шаг к общему искусственному интеллекту с Super Mario Все началось с простой задачи: обучить агента играть в Super Mario Brothers . Но вы найдете так много учебных пособий в Интернете, чтобы сделать это. Но как насчет того, чтобы научить агента играть в Марио так, как играют люди? Есть ли разница? Это еще одна задача, столь же простая , как обучение агента 😉. Да, вы уловили здесь выделенный курсивом намек. Не будем бояться, мы можем..

ОПТИМАЛЬНО или САМОЕ БЕЗОПАСНОЕ?
Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь? Исследуйте против эксплуатации В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели. Что такое политика? Политика в обучении..

пипокс @Medium
Сейчас самое подходящее время дать проекту pypoks новое «средство». В следующих сообщениях вы найдете некоторую информацию, концепции и обновления о проекте. pypoks  – это попытка внедрить обучение с подкреплением в глубокие нейронные сети для среды игры в покер. В основном я буду использовать Python с Tensorflow. Вы можете посмотреть код здесь . Обо мне: Меня зовут Петр Невински. Я разработчик НЛП @Samsung R&D Poland. Если вы хотите принять участие в проекте,..

Что такое обучение с подкреплением
Для этого есть элегантное описание «Научитесь принимать правильные последовательности решений». — Эмма Бранскилл Разорвем фразу. « Узнать » означает, что компьютер заранее не знает, как работает среда. « сделать » означает, что компьютеру необходимо выполнить действие, чтобы что-то сделать. « хорошо » означает, что компьютер получит некоторое вознаграждение, поэтому он будет знать, является ли его действие хорошим или плохим. « последовательность решений » означает, что компьютер..

Обучение с подкреплением со Скиннером
Обучение с подкреплением со Скиннером Дружеское введение в проблему обучения с подкреплением на примерах из нейробиологии Обучение с подкреплением недавно стало центром внимания благодаря таким достижениям, как AlphaGo , и предположительно является одним из наших лучших достижений в области общего искусственного интеллекта - или, по крайней мере, более общего интеллекта. В этом посте я прослежу часть его истории до исследования Скиннера оперантного обусловливания . На самом..

Уважаемый агент по обучению с подкреплением, объясните, пожалуйста, свои действия.
Объяснимое обучение с подкреплением для продольного контроля В следующей статье представлены исследования, которые я провел вместе с Яном Доменом и Марко Вирингом. TL; DR: Обучение с подкреплением обещает достичь оптимальной производительности во многих приложениях. Однако, пока изученные действия остаются непрозрачными, их использование в приложениях, связанных с безопасностью, маловероятно. Представленная здесь новая диаграмма RL-SHAP открывает черный ящик и дает новый взгляд..

RL - Основы алгоритмов и терминов
RL - Основы алгоритмов и терминов Краткое изложение основных алгоритмов, терминов и концепций обучения с подкреплением. Определения Марковский процесс принятия решений (MDP) Горизонт: количество временных шагов, которые мы выбираем или моделируем. Фактор скидки : скидка на будущие вознаграждения. Обозначение Другое соглашение: Обучение с подкреплением Функция значения Функция состояния-значения (общие награды от состояния s ):..