Leveraging heterogeneous spillover effects in maximizing contextual bandit rewards.

Ahmed Sayeed Faruk Elena Zheleva

Published in: CoRR (2023)

Keyphrases

contextual bandit
upper confidence bound
reinforcement learning
markov decision processes
information retrieval
probabilistic model
knowledge discovery
news recommendation