Offline Policy Evaluation and Optimization Under Confounding.

Chinmaya Kausik Yangyi Lu Kevin Tan Maggie Makar Yixin Wang Ambuj Tewari

Published in: AISTATS (2024)

Keyphrases

policy evaluation
least squares
optimization algorithm
monte carlo
temporal difference
semi parametric
reinforcement learning
policy iteration
matrix inversion
multi agent
model free
variance reduction