Выглядит круто. Очень круто.

В связи с этим я подумал о нескольких вещах:

  • Объединение подхода A3C с каким-либо подходом NEAT или корректировкой топологии. Может быть, запустить популяцию A3C в пуле поколений, а затем выбрать с помощью функции пригодности, чтобы настроить топологию A3C, развернутых одно поколение за другим. Возможно, можно было бы применить какую-то фитнес-функцию на уровне глобальной сети после завершения каждого A3C. Я понятия не имею, будет ли это эффективно или нет, и будет ли это создавать лучшую модель за приемлемое время обучения. Надеемся, что использование относительно более дешевого времени обучения на A3C может стоить попробовать. Есть ли у вас какие-либо мысли по поводу этого подхода/идеи? В связи с этим — как вы определили топологию (как количество слоев, так и количество нейронов на слой) сети A3C?
  • Что касается реализации, вы думали об использовании asyncio или concurrent.futures в Python? Вероятно, просто косметический, но это может сделать реализацию более чистой.

Спасибо за эту серию! Стоит прочитать.