Как отменить действие в OpenAI Gym?

В OpenAI Gym я хотел бы знать следующие состояния для разных действий в одном и том же состоянии. Например, я хочу получить s_1, s_2, где динамика моего окружения:

(s, a_1) -> s_1, (s, a_2) -> s_2

Я не могу найти метод, который отменяет действие или показывает следующее состояние без изменения среды. Есть ли что-то очевидное, что мне не хватает?

Если это помогает, я делаю это, чтобы различать динамику и вознаграждение за LQR, и использую среду InvertedPendulum.

python reinforcement-learning openai-gym

LYH 25.08.2016 источник

Ответы (2)

arrow_upward
1
arrow_downward

Я нашел метод с именем set_state, который делает именно это. Его можно найти по адресу:

LYH 26.08.2016

arrow_upward
0
arrow_downward

Попробуйте клонировать env.

from copy import deepcopy
import gym

env1 = gym.make("InvertedPendulum-v1")
s = env.reset()

env2 = deepcopy(env1)

s_1 = env.step(a_1)
s_2 = env.step(a_2)

Alex Van de Kleut 19.06.2020

Как отменить действие в OpenAI Gym?

Ответы (2)

Вопросы по теме