The Assistive Multi-Armed Bandit.

Lawrence Chan Dylan Hadfield-Menell Siddhartha S. Srinivasa Anca D. Dragan

Published in: CoRR (2019)

Keyphrases

multi armed bandit
multi armed bandits
reinforcement learning
decentralized decision making
training data
decision making
optimal solution