Policy Evaluation with Latent Confounders via Optimal Balance.

Andrew Bennett Nathan Kallus

Published in: CoRR (2019)

Keyphrases

policy evaluation
reinforcement learning
least squares
model free
optimal solution
optimal control
dynamic programming
worst case
temporal difference
decision making
markov decision processes
finite state
policy iteration