Reward Imputation with Sketching for Contextual Batched Bandits.

Xiao Zhang Ninglu Shao Zihua Si Jun Xu Wenhan Wang Hanjing Su Ji-Rong Wen

Published in: NeurIPS (2023)

Keyphrases

multi armed bandit
reinforcement learning
missing values
contextual information
missing data
multi armed bandits
stochastic systems
context sensitive
data imputation
long run
neural network
missing data imputation
contextual knowledge
data sets
decision trees
policy gradient
search engine
multiple imputation
databases