State-Aware Value Function Approximation with Attention Mechanism for Restless Multi-armed Bandits.

Shuang Wu Jingyu Zhao Guangjian Tian Jun Wang

Published in: IJCAI (2021)

Keyphrases

multi armed bandits
state space
attention mechanism
machine learning
pairwise
real time
probability distribution
upper bound
human computer interaction
optimal control