Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators.

Yinbin Han Meisam Razaviyayn Renyuan Xu

Published in: CoRR (2023)

Keyphrases

policy gradient
optimal policy
average reward
optimal control
reinforcement learning
dynamic programming
partially observable markov decision processes
infinite horizon
actor critic
markov decision processes
decision problems
finite horizon
state space
finite state
long run
function approximation
average cost
policy iteration
reinforcement learning algorithms
optimal solution
initial state
markov decision process
single agent
sufficient conditions
closed loop
function approximators
gradient method
model free
multi agent