Stochastic Multi-armed Bandits: Optimal Trade-off among Optimality, Consistency, and Tail Risk.

David Simchi-Levi Zeyu Zheng Feng Zhu

Published in: NeurIPS (2023)

Keyphrases

trade off
multi armed bandits
optimal solution
multi armed bandit
worst case
dynamic programming
monte carlo
optimal control
optimality criterion
bandit problems
machine learning