Fitted policy search.

Martino Migliavacca Alessio Pecorino Matteo Pirotta Marcello Restelli Andrea Bonarini

Published in: ADPRL (2011)

Keyphrases

policy search
reinforcement learning
reinforcement learning algorithms
continuous state
dynamic programming
continuous action
function approximation
partially observable markov decision processes
policy gradient
reward function
neural network
evaluation function
reinforcement learning methods