Publication: Compatible Value Gradients for Reinforcement Learning of Continuous Deep Policies.