Regret Bounds for Restless Markov Bandits

Ronald Ortner Daniil Ryabko Peter Auer Rémi Munos

Published in: CoRR (2012)

Keyphrases

regret bounds
semi markov
lower bound
multi armed bandit
online learning
linear regression
optimal control
upper bound
markov chain
conditional random fields
objective function
active learning
least squares
bregman divergences