Off-Policy Actor-Critic

Thomas Degris Martha White Richard S. Sutton

Published in: CoRR (2012)

Keyphrases

control system
actor critic
reinforcement learning
approximate dynamic programming
policy gradient
optimal control
temporal difference
gradient method
neuro fuzzy
fuzzy logic
reinforcement learning algorithms
policy iteration
function approximation
markov decision processes
linear program
step size
dynamic programming
optimal solution
average reward
state space
temporal difference learning
neural network
convergence rate
dynamical systems
objective function
artificial neural networks