Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning.

Weidong Liu Jiyuan Tu Yichen Zhang Xi Chen

Published in: CoRR (2023)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
model free
function approximation
semi parametric
least squares
policy iteration
monte carlo
markov decision processes
td learning
estimation error
statistical inference
reinforcement learning algorithms
variance reduction
optimal policy
state space
evaluation function
learning algorithm
density estimation
gaussian process
bayesian inference
probabilistic model
dynamic programming
multi agent
bayesian networks
decision making