Operator Augmentation for Model-based Policy Evaluation.

Xun Tang Lexing Ying Yuhua Zhu

Published in: CoRR (2021)

Keyphrases

policy evaluation
model free
least squares
reinforcement learning
temporal difference
policy iteration
monte carlo
markov decision processes
matrix inversion
function approximation
reinforcement learning algorithms
semi parametric
variance reduction
state space
machine learning
optimal policy