Reward Attack on Stochastic Bandits with Non-Stationary Rewards.

Chenye Yang Guanlin Liu Lifeng Lai

Published in: ACSSC (2023)

Keyphrases

non stationary
multi armed bandits
bandit problems
multi armed bandit
reinforcement learning
fractional brownian motion
markov processes
stochastic systems
reward function
decision problems
multi armed bandit problems
adaptive algorithms
markov decision processes
empirical mode decomposition
temporal evolution
random fields
expected reward
change point detection
autoregressive
biomedical signals
financial time series
average reward
control policy
regret bounds
total reward
optimal policy
computer vision