Публикации по тегам policy-optimization

Публикации по теме 'policy-optimization'

Объяснение оптимизации проксимальной политики

Обучение с подкреплением — это стратегия машинного обучения, которая требует, чтобы агент генерировал действия с заданным состоянием, чтобы получить максимальное долгосрочное вознаграждение. Естественно, есть много способов, которыми агент может создать алгоритм для этого. Например, алгоритм может научиться аппроксимировать ожидаемое вознаграждение с учетом конкретной политики и оптимизировать свою политику, чтобы максимизировать вознаграждение. С другой стороны, алгоритм может попытаться..

Публикации по теме 'policy-optimization'

Объяснение оптимизации проксимальной политики

Вопросы по теме