Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms.

Yanwei Jia Xun Yu Zhou

Published in: CoRR (2021)

Keyphrases

actor critic
policy gradient
policy gradient methods
optimal control
reinforcement learning
learning algorithm
natural actor critic
policy iteration
temporal difference
neuro fuzzy
approximate dynamic programming
function approximation
reinforcement learning algorithms
reinforcement learning methods
partially observable markov decision processes
rl algorithms
dynamical systems
gradient method
model free
learning problems
learning tasks
state space
markov decision processes
search space
machine learning
optimal policy
approximation methods
variance reduction
linear program
monte carlo