Actor-Critic Policy Learning in Cooperative Planning.

Josh Redding Alborz Geramifard Jonathan P. How

Published in: AAAI Spring Symposium: Embedded Reasoning (2010)

Keyphrases

actor critic
policy gradient
reinforcement learning
cooperative
learning algorithm
policy gradient methods
learning tasks
partially observable
approximate dynamic programming
function approximation
temporal difference
active learning
action selection
markov decision processes
optimal control
finite state
dynamical systems
supervised learning