A Policy Iteration Technique for Time Elapse over Template Polyhedra.

Sriram Sankaranarayanan Thao Dang Franjo Ivancic

Published in: HSCC (2008)

Keyphrases

policy iteration
markov decision processes
model free
reinforcement learning
fixed point
least squares
optimal policy
sample path
temporal difference
infinite horizon
finite state
markov decision process
policy evaluation
optimal control
state space
convergence rate
average reward
special case
markov decision problems
evaluation function
input image
average cost