При использовании среды MountainCar-v0 из OpenAI-gym в Python значение done будет истинным после 200 временных шагов. Это почему? Поскольку целевое состояние не достигнуто, эпизод не должен заканчиваться.
import gym
env = gym.make('MountainCar-v0')
env.reset()
for _ in range(300):
env.render()
res = env.step(env.action_space.sample())
print(_)
print(res[2])
Я хочу запустить метод step, пока машина не достигнет флага, а затем прервать цикл for. Это возможно? Что-то похожее на это:
n_episodes = 10
done = False
for i in range(n_episodes):
env.reset()
while done == False:
env.render()
state, reward, done, _ = env.step(env.action_space.sample())