Публикации по теме 'openai-gym'
Обучение с подкреплением: введение и руководство по его основам
Введение
Обучение с подкреплением (RL) — это область машинного обучения, которая занимается проблемой обучения агента обучению и принятию решений, взаимодействуя с окружающей средой. Агент учится на своих действиях и опыте, получая обратную связь в виде вознаграждений или штрафов, что позволяет ему со временем улучшать свою работу. В этом сообщении блога мы рассмотрим основы обучения с подкреплением, его основные термины и погрузимся в его ключевые понятия, такие как политика ,..
Создание пользовательской среды OpenAI Gym для глубокого обучения с подкреплением (drl4t-04)
Торговля акциями — это сложное экономическое поведение, и никто не может дать формулы, чтобы точно его предсказать. Что ж, именно здесь может вступить в игру глубокое обучение с подкреплением (DRL), которое быстро развивается в последние годы.
Глубокое обучение с подкреплением (DRL) сочетает в себе алгоритмы обучения с подкреплением и глубокие нейронные сети, чтобы научиться принимать решения в сложных условиях. В DRL агент учится взаимодействовать с окружающей средой, совершая действия и..
Адаптация критика мягких актеров для дискретных пространств действий
Как применить популярный алгоритм к новым задачам, изменив всего два уравнения
С момента своего появления в 2018 году Soft Actor-Critic (SAC) зарекомендовал себя как один из самых популярных алгоритмов для глубокого обучения с подкреплением (DRL). Вы можете найти много отличных объяснений и руководств о том, как это работает в Интернете. Однако большинство из них предполагают непрерывное пространство действия. В этом посте я объясню и реализую необходимые адаптации для использования SAC..
Научите свой ИИ ходить | Решение BipedalWalker | OpenAIGym
В этом блоге мы собираемся научить простой ИИ ходить с помощью обучения с подкреплением. Давайте сначала вкратце разберемся, что такое обучение с подкреплением и что это за ИИ, который мы собираемся обучать.
Обучение с подкреплением, краткое введение
Обучение с подкреплением - это ветвь машинного обучения. Идея в том, что у вас есть агент и среда . Агент предпринимает действия, и среда выдает вознаграждение на основе этих действий. Цель состоит в том, чтобы научить агента..
Решение классических задач управления обучением с подкреплением | OpenAIGym.
Если вы новичок в обучении с подкреплением и хотите его реализовать, то OpenAIGym - правильное место для начала.
Обучение с подкреплением
Обучение с подкреплением - интересная область машинного обучения. Приблизительно у вас есть агент и среда . Агент предпринимает действия, и среда выдает вознаграждение на основе этих действий. Цель состоит в том, чтобы научить агента оптимальному поведению, чтобы максимизировать вознаграждение, получаемое средой.
Например, взгляните на..
Вопросы по теме 'openai-gym'
Как отменить действие в OpenAI Gym?
В OpenAI Gym я хотел бы знать следующие состояния для разных действий в одном и том же состоянии. Например, я хочу получить s_1, s_2, где динамика моего окружения:
(s, a_1) -> s_1, (s, a_2) -> s_2
Я не могу найти метод, который...
455 просмотров
schedule
12.03.2022
Как запустить OpenAI Gym .render () на сервере
Я запускаю скрипт python 2.7 на сервере p2.xlarge AWS через Jupyter (Ubuntu 14.04). Я хотел бы иметь возможность визуализировать свои симуляции.
Минимальный рабочий пример
import gym
env = gym.make('CartPole-v0')
env.reset()
env.render()...
69200 просмотров
schedule
09.10.2022
Почему эпизод снимается после 200 временных шагов (тренажерный зал MountainCar)?
При использовании среды MountainCar-v0 из OpenAI-gym в Python значение done будет истинным после 200 временных шагов. Это почему? Поскольку целевое состояние не достигнуто, эпизод не должен заканчиваться.
import gym
env =...
8231 просмотров
schedule
28.06.2023
OpenAI gym: как получить пиксели в CartPole-v0
Я хотел бы получить доступ к необработанным пикселям в среде OpenAI gym CartPole-v0 , не открывая окно рендеринга. Как мне это сделать?
Пример кода:
import gym
env = gym.make("CartPole-v0")
env.reset()
img = env.render(mode='rgb_array',...
5913 просмотров
schedule
11.06.2024
Обучение нейронной сети Tensorflow на наблюдениях openai
Я пытаюсь создать NN в Tensorflow, который тренируется на воспроизведении опыта, но столкнулся с ошибкой, которую не могу исправить. Вот мой код:
import gym
import tensorflow as tf
import numpy as np
enviroment = 'CartPole-v0'
env =...
198 просмотров
schedule
03.06.2023
Установите pybox2d для python 3.6 с conda 4.3.21
Я хочу поиграть с env лунного посадочного модуля из спортзала OpenAI.
Чтобы запустить этот код, мне нужно установить Box2d, здесь и возникают мои проблемы. Я использую ubuntu 16.04 с conda 4.3.21 и python 3.6. Когда я попытался запустить среду, я...
18395 просмотров
schedule
18.07.2023
Почему OpenAI Gym Atari дает неправильное наблюдение при рендеринге?
Снимок экрана
Вот что env.render() выводит на экран, среда SpaceInvader-v0.
Я делаю что-то не так здесь? Мой код буквально взят с сайта OpenAI Gym, только изменена среда.
924 просмотров
schedule
23.06.2023
OpenAI gym's breakout-v0 паузы
Во время тренировок в тренажерном зале OpenAI мне кажется, что среда иногда «останавливается». Многие кадры подряд мяч не виден / не появляется.
Это ошибка тренажерного зала? Это что-то, что является частью игры Breakout-v0?
Мне также было...
1272 просмотров
schedule
01.09.2022
обучение модели тензорного потока на openai cartpole
Я реализую свою первую модель глубокого обучения с подкреплением, используя тензорный поток, для которого я реализую проблему с тележкой .
Я обратился к глубокой нейронной сети с использованием шести слоев, которые обучаются на случайном...
365 просмотров
schedule
23.03.2022
Аппроксиматор функций и Q-обучение
Я пытаюсь реализовать q-обучение с помощью функции приближения значения действия. Я использую openai-gym и среду "MountainCar-v0", чтобы проверить свой алгоритм. Моя проблема в том, что он вообще не сходится и не находит цель.
В основном...
268 просмотров
schedule
11.11.2022
При запуске тренажерного зала проверка работоспособности возвращает ошибку атрибута для numpy __version__
Я пытаюсь заставить работать открытый ИИ-тренажер, но сталкиваюсь с очень постоянной ошибкой. Когда я запускаю свою программу (простой демонстрационный решатель карт), я получаю эту ошибку. (Файл "gperm.py" является решателем тележки)
File...
97 просмотров
schedule
20.09.2022
Методы градиента политики для Open AI Gym Cartpole
Я новичок в обучении с подкреплением и пытаюсь реализовать методы градиента политики для решения задачи Open AI Gym CartPole с помощью Tensorflow. Однако мой код работает очень медленно; первый эпизод проходит в приемлемом темпе, тогда как он очень...
1013 просмотров
schedule
17.04.2023
Режим игрока в спортзале OpenAI
Кто-нибудь знает, как управлять одним из тренажерных залов OpenAI в качестве игрока. Например, позволить игроку-человеку сыграть в шест на тележке? Я видел, что есть env.mode = 'human', но мне не удалось заставить его работать должным образом. Я...
3314 просмотров
schedule
13.08.2022
Недействительные шаги в обучении с подкреплением
Я реализовал индивидуальную среду тренажерного зала openai для игры, похожей на http://curvefever.io/ , но с осторожным действия вместо непрерывных. Таким образом, мой агент может на каждом этапе двигаться в одном из четырех направлений: влево /...
1383 просмотров
schedule
11.03.2022
Почему мой агент DQN не может найти оптимальную политику в недетерминированной среде?
edit: Следующее, похоже, также относится к FrozenLake-v0 . Обратите внимание, что меня не интересует простое Q-обучение, так как я хочу видеть решения, которые работают с пространствами непрерывного наблюдения.
Недавно я создал среду OpenAI...
1993 просмотров
schedule
18.08.2022
OpenAI Gym Atari Baseline deepq train.py не работает
Я пытался обучить игру Frostbite для Atari 2600 на базе DQN OpenAI . Я использую Linux и Python 3. Потратив некоторое время на попытки запустить его, я заметил пару проблем:
from baselines.common.atari_wrappers_deprecated import wrap_dqn Не...
521 просмотров
schedule
27.04.2023
Перечислить все идентификаторы среды в спортзале openai
Как перечислить все в настоящее время зарегистрированные идентификаторы среды (поскольку они используются для создания сред) в тренажерном зале openai?
Немного контекста: установлено множество плагинов с обычными идентификаторами, такими как...
8817 просмотров
schedule
18.09.2023
Пользовательская игровая среда OpenAI / Tensorflow вместо использования 'gym.make ()'
[Введение] У меня есть сделанная на заказ игра Python, в которой в качестве входных данных используются клавиши «w» для перемещения и клавиша «пробел» для стрельбы. Я нашел алгоритм обучения с подкреплением, который хотел бы попробовать реализовать...
2068 просмотров
schedule
22.10.2022
OpenAI Интеграция пользовательской игры в среду тренажерного зала
[ Введение ] Я новичок в OpenAI, я создал собственную игру, в которую хочу внедрить самообучающийся агент. Я следовал этому руководству , чтобы настроить репозиторий на GitHub, однако я не понимаю, как я мог отформатировать свой код для работы с...
1518 просмотров
schedule
05.06.2024
PyCharm не устанавливает тренажерный зал
Я просто установил его с помощью pip и хотел импортировать его в PyCharm, но получил сообщение об ошибке:
Среда решения: ... работает ... не удалось
PackagesNotFoundError: следующие пакеты недоступны по текущим каналам:
спортзал...
4512 просмотров
schedule
15.08.2022