Counterfactual Risk Minimization: Learning from Logged Bandit Feedback.

Adith Swaminathan Thorsten Joachims

Published in: ICML (2015)

Keyphrases

risk minimization
learning algorithm
learning process
supervised learning
machine learning
multi class
multi category
reinforcement learning
long term