Direct Policy Iteration with Demonstrations.

Jessica Chemali Alessandro Lazaric

Published in: IJCAI (2015)

Keyphrases

policy iteration
markov decision processes
reinforcement learning
model free
optimal policy
least squares
fixed point
sample path
policy evaluation
finite state
markov decision process
average reward
temporal difference
infinite horizon
markov decision problems
optimal control
convergence rate
linear programming
average cost
data mining