Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces.

Tatsuhiro Shimizu Laura Forastiere

Published in: CoRR (2023)

Keyphrases

action space
markov decision processes
policy iteration
reinforcement learning
temporal difference
action selection
state space
markov decision process
model free
finite state
optimal policy
reinforcement learning algorithms
real valued
markov decision problems
function approximation
infinite horizon
dynamic programming
random sampling
variance reduction
partially observable
np hard
decision making
transition probabilities
linear programming
least squares
reward function
image segmentation
learning algorithm