An Alternate Policy Gradient Estimator for Softmax Policies.

Shivam Garg Samuele Tosatto Yangchen Pan Martha White A. Rupam Mahmood

Published in: CoRR (2021)

Keyphrases