Expected Policy Gradients.

Kamil Ciosek Shimon Whiteson

Published in: AAAI (2018)

Keyphrases

optimal policy
reinforcement learning
database
data sets
policy making
total reward
computer vision
image processing
decision trees
least squares
decision process