Variance-reduced Q-learning is minimax optimal.

Martin J. Wainwright

Published in: CoRR (2019)

Keyphrases

worst case
learning algorithm
reinforcement learning
dynamic programming
state space
function approximation
optimal solution
conditional expectation
multi agent
motion estimation
optimal design