Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling.

Yuta Saito Qingyang Ren Thorsten Joachims

Published in: ICML (2023)

Keyphrases

policy evaluation
action space
markov decision processes
least squares
reinforcement learning
policy iteration
state space
temporal difference
decision making
function approximation
stochastic processes
dynamic programming
dynamic environments
real valued