Deep Conservative Policy Iteration.

Nino Vieillard Olivier Pietquin Matthieu Geist

Published in: AAAI (2020)

Keyphrases

policy iteration
markov decision processes
model free
fixed point
reinforcement learning
optimal policy
least squares
sample path
temporal difference
finite state
markov decision process
infinite horizon
policy evaluation
average reward
convergence rate
linear programming
state space
optimal control
markov decision problems
discounted reward
function approximation
belief propagation
multi agent