Neural Policy Gradient Methods: Global Optimality and Rates of Convergence.

Lingxiao Wang Qi Cai Zhuoran Yang Zhaoran Wang

Published in: ICLR (2020)

Keyphrases

neural network
global optimization
reinforcement learning
optimal solution
probabilistic model