CORe: Capitalizing On Rewards in Bandit Exploration.

Nan Wang Branislav Kveton Maryam Karimzadehgan

Published in: CoRR (2021)

Keyphrases

bandit problems
exploration exploitation
multi armed bandits
reinforcement learning
decision problems
genetic algorithm
multi agent
markov decision processes
random sampling
active exploration
decision making
e learning
artificial neural networks
action selection