An Actor/Critic Algorithm that is Equivalent to Q-Learning.

Robert H. Crites Andrew G. Barto

Published in: NIPS (1994)

Keyphrases

actor critic
cost function
learning algorithm
dynamic programming
mathematical model
computational complexity
search space
reinforcement learning
simulated annealing
convergence rate
optimal control
model free
neural network
multi agent
monte carlo
temporal difference
reinforcement learning algorithms