Actor-Critic or Critic-Actor? A Tale of Two Time Scales.

Shalabh Bhatnagar Vivek S. Borkar Soumyajit Guin

Published in: IEEE Control. Syst. Lett. (2023)

Keyphrases

actor critic
reinforcement learning
policy gradient
optimal control
approximate dynamic programming
temporal difference
neuro fuzzy
gradient method
reinforcement learning algorithms
policy iteration
function approximation
natural actor critic
markov decision processes
step size
model free
evaluation function
control strategy
average reward
linear programming
least squares
state space
dynamic programming
multi agent systems