Adversarially Guided Actor-Critic.

Yannis Flet-Berliac Johan Ferret Olivier Pietquin Philippe Preux Matthieu Geist

Published in: CoRR (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
approximate dynamic programming
temporal difference
optimal control
neuro fuzzy
gradient method
reinforcement learning algorithms
function approximation
policy iteration
average reward
evaluation function
monte carlo
state space
dynamical systems
action selection
mathematical model
optimal policy