Safe Exploration for Efficient Policy Evaluation and Comparison.

Runzhe Wan Branislav Kveton Rui Song

Published in: ICML (2022)

Keyphrases

policy evaluation
least squares
reinforcement learning
optimal policy
optimal control