CORe: Capitalizing On Rewards in Bandit Exploration.

Nan Wang Branislav Kveton Maryam Karimzadehgan

Published in: UAI (2021)

Keyphrases

bandit problems
exploration exploitation
reinforcement learning
multi armed bandits
decision problems
databases
machine learning
hidden markov models
random sampling
information systems
markov chain
exploration strategy
long term and short term