Twin Delayed Hierarchical Actor-Critic.

Mihai Anca Matthew Studley

Published in: ICARA (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
function approximation
approximate dynamic programming
neuro fuzzy
gradient method
optimal control
temporal difference
reinforcement learning algorithms
policy iteration
optimal solution
dynamic programming
sufficient conditions
markov decision processes
average reward
machine learning