Thompson Sampling Based Multi-Armed-Bandit Mechanism Using Neural Networks.

Padala Manisha Sujit Gujar

Published in: AAMAS (2019)

Keyphrases

neural network
multi armed bandit
multi armed bandits
probabilistic model
reinforcement learning
monte carlo
machine learning
mutual information
maximum likelihood
decentralized decision making