Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.

Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue

Published in: CoRR (2019)

Keyphrases

empirical studies
policy evaluation
reinforcement learning
temporal difference
least squares
model free
function approximation
policy iteration
monte carlo
markov decision processes
variance reduction
empirical analysis
td learning
reinforcement learning algorithms
optimal policy
state space
multi agent
semi parametric
reinforcement learning methods
step size
partially observable markov decision processes
function approximators
learning algorithm
machine learning
partially observable
dynamic programming