Regularly updated deterministic policy gradient algorithm.

Shuai Han Wenbo Zhou Shuai Lü Jiayu Yu

Published in: Knowl. Based Syst. (2021)

Keyphrases

worst case
learning algorithm
dynamic programming
policy gradient
objective function
neural network
optimal solution
k means
np hard
monte carlo
path planning
gradient ascent
computational complexity
cost function
approximation methods