CVaR-Regret Bounds for Multi-armed Bandits.

Chenmien Tan Paul Weng

Published in: ACML (2022)

Keyphrases

multi armed bandits
multi armed bandit
regret bounds
lower bound
online learning
reinforcement learning
linear regression
upper bound
least squares