Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions.

Tal Lancewicki Shahar Segal Tomer Koren Yishay Mansour

Published in: CoRR (2021)

Keyphrases

multi armed bandits
multi armed bandit
bandit problems
probability distribution
stochastic processes
machine learning
learning algorithm
reinforcement learning
mutual information
linear programming
random variables
information theoretic