ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive Non-Stationary Dueling Bandits.

Thomas Kleine Buening Aadirupa Saha

Published in: AISTATS (2023)

Keyphrases

non stationary
adaptive algorithms
learning algorithm
np hard
dynamic programming
worst case
detection algorithm
objective function
expectation maximization
computer vision
multiscale
optimal solution
temporal evolution
multi armed bandit