On the robustness of a one-period look-ahead policy in multi-armed bandit problems.

Ilya O. Ryzhov Peter I. Frazier Warren B. Powell

Published in: ICCS (2010)

Keyphrases

multi armed bandit problems
bandit problems
stochastic demand
computational efficiency
asymptotically optimal
machine learning
case based reasoning
optimal policy