Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies.

Jinlin Lai Lixin Zou Jiaxing Song

Published in: CoRR (2020)

Keyphrases

policy evaluation
optimal policy
linear combination
dynamic programming
state space
least squares
mixture model
gaussian mixture model
reinforcement learning
expectation maximization
monte carlo