Публикации по теме 'ddpg'


DDPG-II Рука Бога, будь благословенна (посвящается всем, кто заботится об обучении с подкреплением)!
Из-за первоначального непонимания логарифмической вероятности политики для пространства непрерывного действия (для дискретной потери энтропии нужно иметь вероятность категорий или отдельных действий, но для пространства непрерывного действия это может привести к бесконечным категориям) я обнаружил и склонился к градиенту глубокой детерминированной политики. Будучи медленно обучающимся, я не мог понять всего, что написано в последних статьях PPO, SAC, A2C, поэтому я назвал эту версию DDPG..