RL (обучение с подкреплением) — это просто динамическое программирование, дополненное другим (очень причудливым) названием. По крайней мере, следует устранить фактор страха для инженеров по контролю и оптимизации рабочих процессов. Я собираюсь опубликовать ряд рабочих примеров из MPC на основе модели и простого ПИД-управления. После более чем 40-летнего опыта работы в области прикладной техники управления в нефтеперерабатывающей, нефтехимической, энергетической и оборонной отраслях, базовая математика и моделирование не сильно изменились, независимо от последних тенденций моды. Мы видели упадок нечеткой логики, самонастраивающегося управления и искусственного интеллекта на основе правил применительно к управлению с обратной связью. Основные причинно-следственные связи физики, химии и статистики всегда переживут их.