Публикации по теме 'reinforcement-learning'
Новый взгляд на обучение с подкреплением: шаг к общему искусственному интеллекту с Super Mario
Новый взгляд на обучение с подкреплением: шаг к общему искусственному интеллекту с Super Mario
Все началось с простой задачи: обучить агента играть в Super Mario Brothers . Но вы найдете так много учебных пособий в Интернете, чтобы сделать это. Но как насчет того, чтобы научить агента играть в Марио так, как играют люди? Есть ли разница? Это еще одна задача, столь же простая , как обучение агента 😉. Да, вы уловили здесь выделенный курсивом намек.
Не будем бояться, мы можем..
ОПТИМАЛЬНО или САМОЕ БЕЗОПАСНОЕ?
Учитывая, что вам нужно проехать из пункта А в пункт Б. Выберете ли вы оптимальный, но самый опасный путь? Или вы бы предпочли выбрать самый безопасный, но самый трудоемкий путь?
Исследуйте против эксплуатации
В контексте обучения с подкреплением эксплуатация — это когда агент выбирает наилучшее действие, а исследование — это когда агент действует случайным образом, чтобы выяснить, есть ли другой лучший способ (способы) для достижения цели.
Что такое политика?
Политика в обучении..
пипокс @Medium
Сейчас самое подходящее время дать проекту pypoks новое «средство». В следующих сообщениях вы найдете некоторую информацию, концепции и обновления о проекте.
pypoks – это попытка внедрить обучение с подкреплением в глубокие нейронные сети для среды игры в покер. В основном я буду использовать Python с Tensorflow.
Вы можете посмотреть код здесь .
Обо мне:
Меня зовут Петр Невински. Я разработчик НЛП @Samsung R&D Poland.
Если вы хотите принять участие в проекте,..
Что такое обучение с подкреплением
Для этого есть элегантное описание
«Научитесь принимать правильные последовательности решений». — Эмма Бранскилл
Разорвем фразу. « Узнать » означает, что компьютер заранее не знает, как работает среда. « сделать » означает, что компьютеру необходимо выполнить действие, чтобы что-то сделать. « хорошо » означает, что компьютер получит некоторое вознаграждение, поэтому он будет знать, является ли его действие хорошим или плохим. « последовательность решений » означает, что компьютер..
Обучение с подкреплением со Скиннером
Обучение с подкреплением со Скиннером
Дружеское введение в проблему обучения с подкреплением на примерах из нейробиологии
Обучение с подкреплением недавно стало центром внимания благодаря таким достижениям, как AlphaGo , и предположительно является одним из наших лучших достижений в области общего искусственного интеллекта - или, по крайней мере, более общего интеллекта. В этом посте я прослежу часть его истории до исследования Скиннера оперантного обусловливания .
На самом..
Уважаемый агент по обучению с подкреплением, объясните, пожалуйста, свои действия.
Объяснимое обучение с подкреплением для продольного контроля
В следующей статье представлены исследования, которые я провел вместе с Яном Доменом и Марко Вирингом.
TL; DR: Обучение с подкреплением обещает достичь оптимальной производительности во многих приложениях. Однако, пока изученные действия остаются непрозрачными, их использование в приложениях, связанных с безопасностью, маловероятно. Представленная здесь новая диаграмма RL-SHAP открывает черный ящик и дает новый взгляд..
RL - Основы алгоритмов и терминов
RL - Основы алгоритмов и терминов
Краткое изложение основных алгоритмов, терминов и концепций обучения с подкреплением.
Определения
Марковский процесс принятия решений (MDP)
Горизонт: количество временных шагов, которые мы выбираем или моделируем.
Фактор скидки : скидка на будущие вознаграждения.
Обозначение
Другое соглашение:
Обучение с подкреплением
Функция значения
Функция состояния-значения (общие награды от состояния s ):..