Publication: Measuring Exploration in Reinforcement Learning via Optimal Transport in Policy Space.