Policy Gradient Algorithms Implicitly Optimize by Continuation.

Adrien Bolland Gilles Louppe Damien Ernst

Published in: CoRR (2023)

Keyphrases

optimization problems
machine learning algorithms
learning algorithm
reinforcement learning
search algorithm
computational complexity
dynamic programming