Публикации по теме 'openai-gym'


Обучение с подкреплением: введение и руководство по его основам
Введение Обучение с подкреплением (RL) — это область машинного обучения, которая занимается проблемой обучения агента обучению и принятию решений, взаимодействуя с окружающей средой. Агент учится на своих действиях и опыте, получая обратную связь в виде вознаграждений или штрафов, что позволяет ему со временем улучшать свою работу. В этом сообщении блога мы рассмотрим основы обучения с подкреплением, его основные термины и погрузимся в его ключевые понятия, такие как политика ,..

Создание пользовательской среды OpenAI Gym для глубокого обучения с подкреплением (drl4t-04)
Торговля акциями — это сложное экономическое поведение, и никто не может дать формулы, чтобы точно его предсказать. Что ж, именно здесь может вступить в игру глубокое обучение с подкреплением (DRL), которое быстро развивается в последние годы. Глубокое обучение с подкреплением (DRL) сочетает в себе алгоритмы обучения с подкреплением и глубокие нейронные сети, чтобы научиться принимать решения в сложных условиях. В DRL агент учится взаимодействовать с окружающей средой, совершая действия и..

Адаптация критика мягких актеров для дискретных пространств действий
Как применить популярный алгоритм к новым задачам, изменив всего два уравнения С момента своего появления в 2018 году Soft Actor-Critic (SAC) зарекомендовал себя как один из самых популярных алгоритмов для глубокого обучения с подкреплением (DRL). Вы можете найти много отличных объяснений и руководств о том, как это работает в Интернете. Однако большинство из них предполагают непрерывное пространство действия. В этом посте я объясню и реализую необходимые адаптации для использования SAC..

Научите свой ИИ ходить | Решение BipedalWalker | OpenAIGym
В этом блоге мы собираемся научить простой ИИ ходить с помощью обучения с подкреплением. Давайте сначала вкратце разберемся, что такое обучение с подкреплением и что это за ИИ, который мы собираемся обучать. Обучение с подкреплением, краткое введение Обучение с подкреплением - это ветвь машинного обучения. Идея в том, что у вас есть агент и среда . Агент предпринимает действия, и среда выдает вознаграждение на основе этих действий. Цель состоит в том, чтобы научить агента..

Решение классических задач управления обучением с подкреплением | OpenAIGym.
Если вы новичок в обучении с подкреплением и хотите его реализовать, то OpenAIGym - правильное место для начала. Обучение с подкреплением Обучение с подкреплением - интересная область машинного обучения. Приблизительно у вас есть агент и среда . Агент предпринимает действия, и среда выдает вознаграждение на основе этих действий. Цель состоит в том, чтобы научить агента оптимальному поведению, чтобы максимизировать вознаграждение, получаемое средой. Например, взгляните на..

Вопросы по теме 'openai-gym'

Как отменить действие в OpenAI Gym?
В OpenAI Gym я хотел бы знать следующие состояния для разных действий в одном и том же состоянии. Например, я хочу получить s_1, s_2, где динамика моего окружения: (s, a_1) -> s_1, (s, a_2) -> s_2 Я не могу найти метод, который...
455 просмотров

Как запустить OpenAI Gym .render () на сервере
Я запускаю скрипт python 2.7 на сервере p2.xlarge AWS через Jupyter (Ubuntu 14.04). Я хотел бы иметь возможность визуализировать свои симуляции. Минимальный рабочий пример import gym env = gym.make('CartPole-v0') env.reset() env.render()...
69200 просмотров

Почему эпизод снимается после 200 временных шагов (тренажерный зал MountainCar)?
При использовании среды MountainCar-v0 из OpenAI-gym в Python значение done будет истинным после 200 временных шагов. Это почему? Поскольку целевое состояние не достигнуто, эпизод не должен заканчиваться. import gym env =...
8231 просмотров
schedule 28.06.2023

OpenAI gym: как получить пиксели в CartPole-v0
Я хотел бы получить доступ к необработанным пикселям в среде OpenAI gym CartPole-v0 , не открывая окно рендеринга. Как мне это сделать? Пример кода: import gym env = gym.make("CartPole-v0") env.reset() img = env.render(mode='rgb_array',...
5913 просмотров

Обучение нейронной сети Tensorflow на наблюдениях openai
Я пытаюсь создать NN в Tensorflow, который тренируется на воспроизведении опыта, но столкнулся с ошибкой, которую не могу исправить. Вот мой код: import gym import tensorflow as tf import numpy as np enviroment = 'CartPole-v0' env =...
198 просмотров

Установите pybox2d для python 3.6 с conda 4.3.21
Я хочу поиграть с env лунного посадочного модуля из спортзала OpenAI. Чтобы запустить этот код, мне нужно установить Box2d, здесь и возникают мои проблемы. Я использую ubuntu 16.04 с conda 4.3.21 и python 3.6. Когда я попытался запустить среду, я...
18395 просмотров

Почему OpenAI Gym Atari дает неправильное наблюдение при рендеринге?
Снимок экрана Вот что env.render() выводит на экран, среда SpaceInvader-v0. Я делаю что-то не так здесь? Мой код буквально взят с сайта OpenAI Gym, только изменена среда.
924 просмотров
schedule 23.06.2023

OpenAI gym's breakout-v0 паузы
Во время тренировок в тренажерном зале OpenAI мне кажется, что среда иногда «останавливается». Многие кадры подряд мяч не виден / не появляется. Это ошибка тренажерного зала? Это что-то, что является частью игры Breakout-v0? Мне также было...
1272 просмотров
schedule 01.09.2022

обучение модели тензорного потока на openai cartpole
Я реализую свою первую модель глубокого обучения с подкреплением, используя тензорный поток, для которого я реализую проблему с тележкой . Я обратился к глубокой нейронной сети с использованием шести слоев, которые обучаются на случайном...
365 просмотров

Аппроксиматор функций и Q-обучение
Я пытаюсь реализовать q-обучение с помощью функции приближения значения действия. Я использую openai-gym и среду "MountainCar-v0", чтобы проверить свой алгоритм. Моя проблема в том, что он вообще не сходится и не находит цель. В основном...
268 просмотров
schedule 11.11.2022

При запуске тренажерного зала проверка работоспособности возвращает ошибку атрибута для numpy __version__
Я пытаюсь заставить работать открытый ИИ-тренажер, но сталкиваюсь с очень постоянной ошибкой. Когда я запускаю свою программу (простой демонстрационный решатель карт), я получаю эту ошибку. (Файл "gperm.py" является решателем тележки) File...
97 просмотров
schedule 20.09.2022

Методы градиента политики для Open AI Gym Cartpole
Я новичок в обучении с подкреплением и пытаюсь реализовать методы градиента политики для решения задачи Open AI Gym CartPole с помощью Tensorflow. Однако мой код работает очень медленно; первый эпизод проходит в приемлемом темпе, тогда как он очень...
1013 просмотров

Режим игрока в спортзале OpenAI
Кто-нибудь знает, как управлять одним из тренажерных залов OpenAI в качестве игрока. Например, позволить игроку-человеку сыграть в шест на тележке? Я видел, что есть env.mode = 'human', но мне не удалось заставить его работать должным образом. Я...
3314 просмотров

Недействительные шаги в обучении с подкреплением
Я реализовал индивидуальную среду тренажерного зала openai для игры, похожей на http://curvefever.io/ , но с осторожным действия вместо непрерывных. Таким образом, мой агент может на каждом этапе двигаться в одном из четырех направлений: влево /...
1383 просмотров
schedule 11.03.2022

Почему мой агент DQN не может найти оптимальную политику в недетерминированной среде?
edit: Следующее, похоже, также относится к FrozenLake-v0 . Обратите внимание, что меня не интересует простое Q-обучение, так как я хочу видеть решения, которые работают с пространствами непрерывного наблюдения. Недавно я создал среду OpenAI...
1993 просмотров

OpenAI Gym Atari Baseline deepq train.py не работает
Я пытался обучить игру Frostbite для Atari 2600 на базе DQN OpenAI . Я использую Linux и Python 3. Потратив некоторое время на попытки запустить его, я заметил пару проблем: from baselines.common.atari_wrappers_deprecated import wrap_dqn Не...
521 просмотров
schedule 27.04.2023

Перечислить все идентификаторы среды в спортзале openai
Как перечислить все в настоящее время зарегистрированные идентификаторы среды (поскольку они используются для создания сред) в тренажерном зале openai? Немного контекста: установлено множество плагинов с обычными идентификаторами, такими как...
8817 просмотров

Пользовательская игровая среда OpenAI / Tensorflow вместо использования 'gym.make ()'
[Введение] У меня есть сделанная на заказ игра Python, в которой в качестве входных данных используются клавиши «w» для перемещения и клавиша «пробел» для стрельбы. Я нашел алгоритм обучения с подкреплением, который хотел бы попробовать реализовать...
2068 просмотров

OpenAI Интеграция пользовательской игры в среду тренажерного зала
[ Введение ] Я новичок в OpenAI, я создал собственную игру, в которую хочу внедрить самообучающийся агент. Я следовал этому руководству , чтобы настроить репозиторий на GitHub, однако я не понимаю, как я мог отформатировать свой код для работы с...
1518 просмотров

PyCharm не устанавливает тренажерный зал
Я просто установил его с помощью pip и хотел импортировать его в PyCharm, но получил сообщение об ошибке: Среда решения: ... работает ... не удалось PackagesNotFoundError: следующие пакеты недоступны по текущим каналам: спортзал...
4512 просмотров
schedule 15.08.2022