Gradient-based policy iteration: an example.

Xi-Ren Cao Haitao Fang

Published in: CDC (2002)

Keyphrases

policy iteration
model free
markov decision processes
reinforcement learning
fixed point
least squares
sample path
temporal difference
optimal policy
finite state
markov decision process
average reward
policy evaluation
convergence rate
linear programming
function approximation
infinite horizon
markov decision problems
discounted reward
average cost
optimal control
probability distribution
dynamical systems
state space
decision making