Off-Policy Evaluation of Slate Policies under Bayes Risk.

Nikos Vlassis Fernando Amat Gil Ashok Chandrashekar

Published in: CoRR (2021)

Keyphrases

bayes risk
policy evaluation
optimal policy
least squares
partially observable markov decision processes
policy iteration
reinforcement learning
monte carlo
temporal difference
markov decision processes
loss function
model free
markov decision problems
variance reduction
function approximation
markov decision process
state space
reproducing kernel hilbert space
infinite horizon
finite state
dynamic programming
posterior probability
support vector
image sequences