Policy Evaluation with Latent Confounders via Optimal Balance.

Andrew Bennett Nathan Kallus

Published in: NeurIPS (2019)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
learning algorithm
dynamic programming
image sequences
optimal solution
optical flow
least squares
optimal control