State-Dependent Exploration for Policy Gradient Methods.

Thomas Rückstieß Martin Felder Jürgen Schmidhuber

Published in: ECML/PKDD (2) (2008)

Keyphrases

state dependent
policy gradient methods
steady state
queueing networks
optimal policy
natural actor critic
single server
stationary distribution
queue length
markov chain
asymptotically optimal
arrival rate
neural network
search algorithm
policy gradient