Potential-based online policy iteration algorithms for Markov decision processes.

Haitao Fang Xi-Ren Cao

Published in: IEEE Trans. Autom. Control. (2004)

Keyphrases

policy iteration
markov decision processes
model free
optimal policy
finite state
sample path
factored mdps
least squares
reinforcement learning
markov decision process
average reward
approximate dynamic programming
policy evaluation
transition matrices
state space
dynamic programming
average cost
finite horizon
temporal difference
fixed point
infinite horizon
reinforcement learning algorithms
markov decision problems
markov games
decision processes
function approximation
convergence rate
linear programming
actor critic