Model-based actor-critic: GAN + DRL (actor-critic) => AGI.

Published in: CoRR (2020)

Keyphrases

actor critic
reinforcement learning
temporal difference
approximate dynamic programming
optimal control
policy gradient
gradient method
neuro fuzzy
reinforcement learning algorithms
policy iteration
model free
action selection
function approximation
markov decision processes
monte carlo
fixed point
average reward
machine learning
dynamic programming
optimal policy
temporal difference learning
state space
search space