Публикации по теме 'policy-optimization'


Объяснение оптимизации проксимальной политики
Обучение с подкреплением — это стратегия машинного обучения, которая требует, чтобы агент генерировал действия с заданным состоянием, чтобы получить максимальное долгосрочное вознаграждение. Естественно, есть много способов, которыми агент может создать алгоритм для этого. Например, алгоритм может научиться аппроксимировать ожидаемое вознаграждение с учетом конкретной политики и оптимизировать свою политику, чтобы максимизировать вознаграждение. С другой стороны, алгоритм может попытаться..