Improving Generalization of Reinforcement Learning with Minimax Distributional Soft Actor-Critic.

Yangang Ren Jingliang Duan Yang Guan Shengbo Eben Li

Published in: CoRR (2020)

Keyphrases

actor critic
reinforcement learning
temporal difference
policy gradient
reinforcement learning algorithms
approximate dynamic programming
optimal control
function approximation
neuro fuzzy
gradient method
policy iteration
evaluation function
model free
state space
markov decision processes
control problems
rl algorithms
policy gradient methods
optimal policy
temporal difference learning
dynamic programming
multi agent
natural actor critic
machine learning
action selection
optimization methods
learning problems
function approximators
decision problems
learning algorithm