Minimax-Optimal Policy Learning Under Unobserved Confounding.

Nathan Kallus Angela Zhou

Published in: Manag. Sci. (2021)

Keyphrases

optimal policy
reinforcement learning
state space
learning algorithm
dynamic programming
markov decision processes
bayesian reinforcement learning
average reward reinforcement learning
multistage
decision problems
state dependent
hidden variables
partially observed