Towards a Data Efficient Off-Policy Policy Gradient.

Josiah P. Hanna Peter Stone

Published in: AAAI Spring Symposia (2018)

Keyphrases

dynamic programming
neural network
machine learning
mobile robot
simulated annealing