Distributional Off-Policy Evaluation for Slate Recommendations.

Shreyas Chaudhari David Arbour Georgios Theocharous Nikos Vlassis

Published in: CoRR (2023)

Keyphrases

policy evaluation
least squares
temporal difference
monte carlo
model free
reinforcement learning
markov decision processes
matrix inversion
recommender systems
policy iteration
variance reduction
function approximation
semi parametric
statistical inference
neural network
optimal policy
text classification
collaborative filtering
cost function
training data