SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP.

Subhojyoti Mukherjee Josiah P. Hanna Robert D. Nowak

Published in: CoRR (2024)

Keyphrases

data collection
policy evaluation
markov decision processes
policy iteration
optimal strategy
dynamic programming
reinforcement learning
least squares
optimal policy
temporal difference
average reward
average cost
model free
worst case
machine learning
variance reduction
markov decision process
function approximation
evaluation function
data mining
utility function
linear programming
optimal solution