When is exponential asymptotic optimality achievable in average-reward restless bandits?

Yige Hong Qiaomin Xie Yudong Chen Weina Wang

Published in: CoRR (2024)

Keyphrases

genetic algorithm
asymptotic optimality
average reward
asymptotically optimal
optimal policy
markov decision processes
long run
semi markov decision processes
sufficient conditions
sample path
optimal control
reinforcement learning
policy iteration
stochastic systems
discounted reward
model free
optimality criterion
decision problems
markov chain
dynamic programming
flowshop
state and action spaces
hierarchical reinforcement learning
simulated annealing
state space
finite state
initial state
markov decision problems
average cost
infinite horizon