Combinatorial Pure Exploration for Dueling Bandit.

Wei Chen Yihan Du Longbo Huang Haoyu Zhao

Published in: ICML (2020)

Keyphrases

artificial intelligence
upper bound
markov chain
bandit problems
guided exploration
data sets
computer vision
probabilistic model
optimal policy
random sampling
action selection
exploration strategy