Efficient Online Bandit Multiclass Learning with $\tilde{O}(\sqrt{T})$ Regret.

Alina Beygelzimer Francesco Orabona Chicheng Zhang

Published in: CoRR (2017)

Keyphrases

online learning
online algorithms
worst case
lower bound
bandit problems
regret bounds
weighted majority
multiclass learning
reinforcement learning
machine learning
multi class
learning experience
multi armed bandit problems