Adversarially Guided Actor-Critic.

Yannis Flet-Berliac Johan Ferret Olivier Pietquin Philippe Preux Matthieu Geist

Published in: ICLR (2021)

Keyphrases

actor critic
reinforcement learning
policy gradient
optimal control
temporal difference
approximate dynamic programming
neuro fuzzy
reinforcement learning algorithms
gradient method
function approximation
policy iteration
average reward
linear program
dynamic programming
linear programming