Deep Conservative Policy Iteration.

Nino Vieillard Olivier Pietquin Matthieu Geist

Published in: CoRR (2019)

Keyphrases

policy iteration
markov decision processes
optimal policy
least squares
model free
reinforcement learning
fixed point
sample path
infinite horizon
policy evaluation
finite state
average reward
temporal difference
optimal control
markov decision problems
markov decision process
linear programming
state space
dynamic programming
discounted reward
convergence rate
image sequences
reward function
markov chain
objective function