Easy Monotonic Policy Iteration.

Published in: CoRR (2016)

Keyphrases

policy iteration
markov decision processes
model free
reinforcement learning
fixed point
sample path
least squares
optimal policy
markov decision process
temporal difference
finite state
infinite horizon
policy evaluation
optimal control
average reward
linear programming
supervised learning
convergence rate
markov decision problems
dynamic programming
random variables
average cost