Generalizing Off-Policy Evaluation From a Causal Perspective For Sequential Decision-Making.

Sonali Parbhoo Shalmali Joshi Finale Doshi-Velez

Published in: CoRR (2022)

Keyphrases

sequential decision making
policy evaluation
temporal difference
reinforcement learning
model free
function approximation
evaluation function
monte carlo
reinforcement learning algorithms
step size
policy iteration
least squares
decision problems
markov decision processes
action selection
convergence rate
learning tasks
learning algorithm
machine learning
supervised learning
dynamic programming
bayesian networks
influence diagrams
state space