DSAC-T: Distributional Soft Actor-Critic with Three Refinements.

Jingliang Duan Wenxuan Wang Liming Xiao Jiaxin Gao Shengbo Eben Li

Published in: CoRR (2023)

Keyphrases

actor critic
reinforcement learning
temporal difference
approximate dynamic programming
optimal control
policy gradient
neuro fuzzy
gradient method
reinforcement learning algorithms
function approximation
policy iteration
dynamic programming
learning algorithm
average reward
model free
step size
evaluation function
markov decision processes
temporal difference learning
dynamical systems
state space
optimal solution