Regret Lower Bounds in Multi-agent Multi-armed Bandit.

Mengfan Xu Diego Klabjan

Published in: CoRR (2023)

Keyphrases

multi armed bandit
regret bounds
lower bound
multi agent
reinforcement learning
upper bound
multi armed bandits
decentralized decision making
online learning
np hard
linear regression
worst case
objective function
optimal solution
quadratic assignment problem
least squares
maximum likelihood
similarity measure