Hindsight policy gradients.

Paulo E. Rauber Avinash Ummadisingu Filipe Mutz Jürgen Schmidhuber

Published in: ICLR (Poster) (2019)

Keyphrases

optimal policy
action selection
artificial intelligence
policy making
database
real world
data mining
machine learning
markov decision process
allocation policy
transport systems