Rollout Sampling Approximate Policy Iteration

Christos Dimitrakakis Michail G. Lagoudakis

Published in: CoRR (2008)

Keyphrases

approximate policy iteration
reinforcement learning
policy iteration
markov decision problems
policy search
markov decision processes
markov games
temporal difference
optimal policy
reinforcement learning algorithms
linear programming
markov decision process
state space
function approximators
dynamic programming
multiagent reinforcement learning
model free
least squares
function approximation
decision theoretic
control problems
finite state
monte carlo
neural network
queueing networks
fixed point
markov chain
multi agent