Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation.

Shangtong Zhang Bo Liu Hengshuai Yao Shimon Whiteson

Published in: ICML (2020)

Keyphrases

function approximation
provably convergent
actor critic
temporal difference
reinforcement learning
policy gradient
shape from shading
reinforcement learning algorithms
temporal difference learning
radial basis function
learning tasks
function approximators
model free
optimal control
natural actor critic
multi agent
training data
neuro fuzzy
markov decision processes
search space
approximate dynamic programming
feature extraction