Publication: Adaptive policy-iteration and policy-value-iteration for discounted Markov decision processes.