On the Convergence of Policy in Unregularized Policy Mirror Descent.

Dachao Lin Zhihua Zhang

Published in: CoRR (2022)

Keyphrases

databases
markov decision process
policy making
decision trees
similarity measure
artificial neural networks
optimal policy
policy makers
case study
support vector
linear programming
infinite horizon
asymptotically optimal
policy iteration
inverse reinforcement learning