Publication: PAC Bounds for Multi-armed Bandit and Markov Decision Processes.