В OpenAI Gym я хотел бы знать следующие состояния для разных действий в одном и том же состоянии. Например, я хочу получить s_1, s_2, где динамика моего окружения:
(s, a_1) -> s_1, (s, a_2) -> s_2
Я не могу найти метод, который отменяет действие или показывает следующее состояние без изменения среды. Есть ли что-то очевидное, что мне не хватает?
Если это помогает, я делаю это, чтобы различать динамику и вознаграждение за LQR, и использую среду InvertedPendulum.