Linear Off-Policy Actor-Critic.

Thomas Degris Martha White Richard S. Sutton

Published in: ICML (2012)

Keyphrases

actor critic
reinforcement learning
policy gradient
lyapunov stability
optimal control
neuro fuzzy
gradient method