Asymptotically Best Causal Effect Identification with Multi-Armed Bandits.

Alan Malek Silvia Chiappa

Published in: NeurIPS (2021)

Keyphrases

multi armed bandits
bandit problems
learning algorithm
decision problems
reinforcement learning
least squares
sample size