Я реализовал индивидуальную среду тренажерного зала openai для игры, похожей на http://curvefever.io/, но с осторожным действия вместо непрерывных. Таким образом, мой агент может на каждом этапе двигаться в одном из четырех направлений: влево / вверх / вправо / вниз. Однако одно из этих действий всегда будет приводить к врезанию агента в самого себя, поскольку он не может «повернуть вспять».
В настоящее время я просто позволяю агенту сделать любой ход и просто позволяю ему умереть, если он сделает недопустимый ход, в надежде, что он в конечном итоге научится не предпринимать этого действия в этом состоянии. Однако я читал, что можно установить вероятность совершения незаконного хода равным нулю, а затем выполнить выборку действия. Есть ли другой способ решить эту проблему?