Multi-armed bandits with guaranteed revenue per arm.

Dorian Baudry Nadav Merlis Mathieu Benjamin Molina Hugo Richard Vianney Perchet

Published in: AISTATS (2024)

Keyphrases

multi armed bandits
bandit problems
dynamic pricing
multi armed bandit
reinforcement learning
lower bound
state space
closed form
maximum entropy