Publication: On Q-learning Convergence for Non-Markov Decision Processes.