Anytime-valid off-policy inference for contextual bandits.

Ian Waudby-Smith Lili Wu Aaditya Ramdas Nikos Karampatziakis Paul Mineiro

Published in: CoRR (2022)

Keyphrases

contextual information
data sets
bayesian networks
probabilistic inference
inference mechanism
database
neural network
multi agent
context sensitive
belief networks
bayesian inference
probabilistic reasoning
structured prediction
semi markov
multi armed bandit