Policy Iteration within Logico-Numerical Abstract Domains.

Pascal Sotin Bertrand Jeannet Franck Védrine Eric Goubault

Published in: ATVA (2011)

Keyphrases

policy iteration
markov decision processes
model free
fixed point
reinforcement learning
least squares
finite state
sample path
markov decision process
optimal policy
infinite horizon
policy evaluation
average reward
linear programming
random walk
dynamic programming
search space
artificial neural networks
neural network