First-order Policy Optimization for Robust Policy Evaluation.

Yan Li Guanghui Lan

Published in: CoRR (2023)

Keyphrases

policy evaluation
least squares
temporal difference
model free
monte carlo
reinforcement learning
policy iteration
function approximation
markov decision processes
variance reduction
evaluation function
optimal policy
moving objects