Dynamic Routing and Wavelength Assignment Using First Policy Iteration.

Esa Hyytiä Jorma T. Virtamo

Published in: ISCC (2000)

Keyphrases

policy iteration
markov decision processes
optimal policy
reinforcement learning
fixed point
model free
state space
convergence rate
finite state
infinite horizon
temporal difference
markov decision process
routing and wavelength assignment