Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.

Nathan Kallus Masatoshi Uehara

Published in: J. Mach. Learn. Res. (2020)

Keyphrases

markov decision processes
policy evaluation
reinforcement learning
policy iteration
optimal policy
model free
state space
temporal difference
least squares
reinforcement learning algorithms
function approximation
finite state
dynamic programming
monte carlo
partially observable
average cost
decision processes
planning under uncertainty
markov decision process
semi parametric
partially observable markov decision processes
action space
infinite horizon
optimal control
state and action spaces
variance reduction
state variables
average reward