Soft Actor-Critic with Cross-Entropy Policy Optimization.

Zhenyang Shi Surya P. N. Singh

Published in: CoRR (2021)

Keyphrases

cross entropy
actor critic
policy gradient
reinforcement learning
approximate dynamic programming
neuro fuzzy
optimal control
policy iteration
temporal difference
gradient method
log likelihood
average reward
maximum likelihood
function approximation
markov decision processes
evaluation metrics
reinforcement learning algorithms
optimal policy
optimization algorithm
dynamic programming
step size
probabilistic model
model selection
state space
neural network