Publication: Trust region policy optimization via entropy regularization for Kullback-Leibler divergence constraint.