The Point to Which Soft Actor-Critic Converges.

Published in: CoRR (2023)

Keyphrases

actor critic
reinforcement learning
temporal difference
approximate dynamic programming
policy gradient
optimal control
function approximation