An Optimal Algorithm in Multiplayer Multi-Armed Bandits.

Alexandre Proutière Po-An Wang

Published in: CoRR (2019)

Keyphrases

dynamic programming
worst case
optimal solution
learning algorithm
expectation maximization
multi armed bandits
np hard
computational complexity
evolutionary algorithm
state space
linear programming
closed form
prediction error
multi armed bandit