Off-policy evaluation for slate recommendation.

Adith Swaminathan Akshay Krishnamurthy Alekh Agarwal Miroslav Dudík John Langford Damien Jose Imed Zitouni

Published in: NIPS (2017)

Keyphrases

policy evaluation
least squares
monte carlo
reinforcement learning
temporal difference
model free
markov decision processes
variance reduction
policy iteration
recommender systems
collaborative filtering
function approximation
matrix inversion
semi parametric
regression model
machine learning
linear model
finite state
optimal policy
statistical inference
state space
training data
markov decision problems
decision making