Reusing Historical Observations in Natural Policy Gradient.

Yifan Lin Enlu Zhou

Published in: WSC (2023)

Keyphrases

policy gradient
parametric optimization
reinforcement learning
function approximation
actor critic
control system
neural network
learning tasks
approximation methods
gradient method
variance reduction