An operator view of policy gradient methods.

Dibya Ghosh Marlos C. Machado Nicolas Le Roux

Published in: CoRR (2020)

Keyphrases

policy gradient methods
natural actor critic
neural network
cost function
dynamic environments
markov decision processes