Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit.

Shintaro Nakamura Masashi Sugiyama

Published in: AAAI (2024)

Keyphrases

real valued
multi armed bandit
multi armed bandits
reinforcement learning
complex valued
real valued data
latent variables
integer valued
regret bounds
support vector machine
search engine
machine learning
maximum entropy
ranking functions
online learning
web search
probabilistic model