A basic formula for online policy gradient algorithms.

Published in: IEEE Trans. Autom. Control. (2005)

Keyphrases

machine learning
learning algorithm
computational complexity
support vector
optimization problems
dynamic environments
policy gradient
gradient ascent