Evolved Policy Gradients.

Rein Houthooft Richard Y. Chen Phillip Isola Bradly C. Stadie Filip Wolski Jonathan Ho Pieter Abbeel

Published in: CoRR (2018)

Keyphrases

optimal policy
policy makers
cost function
markov decision processes
artificial intelligence
least squares
markov chain
decision process
infinite horizon
expected cost
markov decision process
allocation policy