Soft Actor-Critic With Integer Actions.

Ting-Han Fan Yubo Wang

Published in: ACC (2022)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
action selection
neuro fuzzy
gradient method
optimal control
reinforcement learning algorithms
approximate dynamic programming
machine learning
partially observable
learning problems
dynamical systems
function approximation
search space
policy iteration
action space
average reward
objective function
decision making