Reliable Off-Policy Evaluation for Reinforcement Learning.

Jie Wang Rui Gao Hongyuan Zha

Published in: Oper. Res. (2024)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
least squares
model free
function approximation
markov decision processes
policy iteration
monte carlo
td learning
variance reduction
semi parametric
optimal policy
reinforcement learning algorithms
partially observable markov decision processes
linear model
state space
action selection
statistical inference
multi agent
transfer learning
dynamic programming
artificial neural networks
neural network