Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via Metagradient.

Yufei Wang Tianwei Ni

Published in: CoRR (2020)

Keyphrases

actor critic
reinforcement learning
approximate dynamic programming
policy gradient
optimal control
temporal difference
neuro fuzzy
gradient method
global optimization
policy iteration
reinforcement learning algorithms
function approximation
average reward
markov decision processes
dynamic programming
multi agent systems
model free
dynamical systems
learning algorithm
machine learning
control strategy
optimal solution