Actor-Critic or Critic-Actor? A Tale of Two Time Scales.

Shalabh Bhatnagar Vivek S. Borkar Soumyajit Guin

Published in: CoRR (2022)

Keyphrases

actor critic
reinforcement learning
optimal control
policy gradient
temporal difference
approximate dynamic programming
neuro fuzzy
gradient method
reinforcement learning algorithms
function approximation
policy iteration
dynamic programming
average reward
model free
partially observable markov decision processes
reinforcement learning methods
control strategy
evaluation function
linear program
natural actor critic