Parameter-Free Multi-Armed Bandit Algorithms with Hybrid Data-Dependent Regret Bounds.

Published in: COLT (2021)

Keyphrases

data dependent
multi armed bandit
parameter free
regret bounds
reinforcement learning
learning algorithm
machine learning
categorical data
data mining
euclidean distance
hash functions