Guided Policy Search as Approximate Mirror Descent.

William Montgomery Sergey Levine

Published in: CoRR (2016)

Keyphrases

policy search
reinforcement learning
reinforcement learning algorithms
continuous state
dynamic programming
sufficient conditions
continuous action
machine learning
domain independent
markov decision processes
exact solution
reward function
partially observable markov decision processes