Homotopic policy mirror descent: policy convergence, algorithmic regularization, and improved sample complexity.

Published in: Math. Program. (2024)

Keyphrases