Impact of multi-armed bandit strategies on deep recurrent reinforcement learning.

Valentina Zangirolami Matteo Borrotti

Published in: CoRR (2023)

Keyphrases

reinforcement learning
multi armed bandit
multi armed bandits
state space
model free
decentralized decision making
temporal difference
learning process
markov decision processes