Sigma point policy iteration.

Michael H. Bowling Alborz Geramifard David Wingate

Published in: AAMAS (1) (2008)

Keyphrases

policy iteration
markov decision processes
fixed point
least squares
model free
sample path
reinforcement learning
optimal policy
finite state
policy evaluation
dynamic programming
average reward
markov decision process
temporal difference
infinite horizon
linear programming
markov decision problems
discounted reward