Program Analysis with Local Policy Iteration.

George Karpenkov David Monniaux Philipp Wendler

Published in: CoRR (2015)

Keyphrases

policy iteration
markov decision processes
model free
optimal policy
fixed point
reinforcement learning
sample path
least squares
temporal difference
finite state
markov decision process
policy evaluation
average reward
infinite horizon
state space
optimal control
markov decision problems
discounted reward
convergence rate
search algorithm
neural network
reward function
graph cuts
markov random field
training data