Actor-critic with familiarity-based trajectory experience replay.

Xiaoyu Gong Jiayu Yu Shuai Lü Hengwei Lu

Published in: Inf. Sci. (2022)

Keyphrases

actor critic
reinforcement learning
policy gradient
optimal control
gradient method
temporal difference
neuro fuzzy
reinforcement learning algorithms
approximate dynamic programming
neural network
policy iteration
multi agent
function approximation