Discrete stochastic approximation via simultaneous difference approximations.

Stacy D. Hill László Gerencsér Zsuzsanna Vágó

Published in: ACC (2005)

Keyphrases

stochastic approximation
monte carlo
policy iteration
finite number
reinforcement learning
markov decision processes
optimal policy
temporal difference learning