A Data-Driven Policy Iteration Scheme based on Linear Programming.

Goran Banjac John Lygeros

Published in: CDC (2019)

Keyphrases

policy iteration
linear programming
data driven
markov decision processes
model free
optimal policy
markov decision problems
linear program
reinforcement learning
least squares
policy evaluation
sample path
dynamic programming
fixed point
average reward
np hard
finite state
optimal solution
markov decision process
infinite horizon
search algorithm
radial basis function
temporal difference
objective function
image segmentation