A Multi-Agent Policy-Gradient Approach to Network Routing.

Nigel Tao Jonathan Baxter Lex Weaver

Published in: ICML (2001)

Keyphrases

monte carlo
network routing
policy gradient
multi agent
single agent
reinforcement learning
dynamic optimization
routing algorithm
markov chain
function approximation
multi agent systems
partially observable markov decision processes
reinforcement learning algorithms
multiple agents
gradient method
temporal difference
approximation methods
optimal control
state space
learning algorithm
model free
genetic algorithm
dynamic environments
state action
artificial neural networks
optimal solution