Publication: Value Penalized Q-Learning for Recommender Systems.