Model-based policy gradients with parameter-based exploration by least-squares conditional density estimation.

Published in: Neural Networks (2014)

Keyphrases