Adversarially Trained Actor Critic for Offline Reinforcement Learning.

Ching-An Cheng Tengyang Xie Nan Jiang Alekh Agarwal

Published in: CoRR (2022)

Keyphrases

actor critic
reinforcement learning
temporal difference
policy gradient
optimal control
approximate dynamic programming
reinforcement learning algorithms
neuro fuzzy
gradient method
policy iteration
function approximation
control problems
markov decision processes
model free
training set
multi agent
learning algorithm
policy gradient methods
optimal policy
state space
dynamic programming
rl algorithms
support vector
machine learning
finite state
markov decision process
learning problems
reinforcement learning methods
natural actor critic