BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning.

Chi Zhang Sanmukh R. Kuppannagari Viktor K. Prasanna

Published in: ACML (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
reinforcement learning algorithms
optimal control
function approximation
approximate dynamic programming
gradient method
neuro fuzzy
policy iteration
state space
policy gradient methods
model free
dynamic programming
markov decision processes
least squares
rl algorithms
step size
optimal policy
multi agent systems
natural actor critic
learning problems
transfer learning
supervised learning
average reward
temporal difference learning
objective function
machine learning