Publication: Optimistic Q-learning for average reward and episodic reinforcement learning.