Target Entropy Annealing for Discrete Soft Actor-Critic.

Yaosheng Xu Dailin Hu Litian Liang Stephen McAleer Pieter Abbeel Roy Fox

Published in: CoRR (2021)

Keyphrases

actor critic
lyapunov stability
reinforcement learning
policy gradient
optimal control
finite number
neuro fuzzy
simulated annealing
temporal difference
gradient method
machine learning
monte carlo
neural network
reinforcement learning algorithms
semi supervised
approximate dynamic programming
control system