Proving Termination by Policy Iteration.

Published in: Electron. Notes Theor. Comput. Sci. (2012)

Keyphrases

policy iteration
term rewrite systems
markov decision processes
model free
reinforcement learning
optimal policy
fixed point
least squares
sample path
markov decision process
policy evaluation
convergence rate
infinite horizon
temporal difference
markov decision problems
average reward
state space
finite state
linear programming
optimal control
function approximation
discounted reward
average cost
dynamic programming
neural network