У меня есть модель на основе политик PPO, которую я тренирую с RLLib с использованием Ray Tune API в некоторых стандартных средах тренажерного зала (без сложной предварительной обработки). У меня есть сохраненные контрольные точки модели, из которых я могу загружать и восстанавливать для дальнейшего обучения.
Теперь я хочу экспортировать свою модель для производства в систему, которая в идеале не должна зависеть от Ray или RLLib. Есть простой способ сделать это?
Я знаю, что в классе rllib.policy.tf_policy
есть интерфейс export_model
, но он не кажется особенно простым в использовании. Например, после вызова export_model('savedir')
в моем обучающем сценарии и в другом контексте загрузки через model = tf.saved_model.load('savedir')
результирующий объект model
вызывает проблемы (что-то вроде model.signatures['serving_default'](gym_observation)
не работает) для ввода правильных входных данных для оценки. Я в идеале ищу метод, который позволил бы легко загружать и оценивать готовые модели для объектов наблюдения.