Regret Minimization in Stochastic Contextual Dueling Bandits.

Aadirupa Saha Aditya Gopalan

Published in: CoRR (2020)

Keyphrases

regret minimization
stochastic systems
nash equilibrium
game theoretic
context sensitive
contextual information
stochastic optimization
stochastic models
multi armed bandit
multi armed bandits
stochastic model
upper bound
stochastic programming
regret bounds
multi agent learning
context dependent
monte carlo