Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits.

Vasilis Syrgkanis Haipeng Luo Akshay Krishnamurthy Robert E. Schapire

Published in: NIPS (2016)

Keyphrases

regret bounds
multi armed bandit
lower bound
linear regression
online learning
upper bound
generative model