Publication: Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes.