Bias and Extrapolation in Markovian Linear Stochastic Approximation with Constant Stepsizes.

Dongyan Huo Yudong Chen Qiaomin Xie

Published in: CoRR (2022)

Keyphrases

stochastic approximation
monte carlo
approximate dynamic programming
neural network
reinforcement learning
policy iteration
temporal difference learning