Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling.

Yunfan Li Yiran Wang Yu Cheng Lin Yang

Published in: CoRR (2023)

Keyphrases

policy gradient
variance reduction
function approximation
multi agent
action selection
parametric optimization