Policy Gradient Algorithms Implicitly Optimize by Continuation.

Adrien Bolland Gilles Louppe Damien Ernst

Published in: Trans. Mach. Learn. Res. (2023)

Keyphrases

learning algorithm
computational complexity
policy gradient
reinforcement learning
search space
simulated annealing
linear regression
finite state