Distributional Off-policy Evaluation with Bellman Residual Minimization.

Sungee Hong Zhengling Qi Raymond K. W. Wong

Published in: CoRR (2024)

Keyphrases

policy evaluation
bellman residual
least squares
policy iteration
markov decision processes
reinforcement learning
temporal difference
monte carlo
model free
variance reduction
function approximation
semi parametric
optimal policy
fixed point
objective function
hybrid algorithms
statistical inference
markov decision process
infinite horizon
partially observable markov decision processes
average cost
machine learning
gaussian process
dynamic programming
learning algorithm