Publication: Similarities between policy gradient methods (PGM) in Reinforcement learning (RL) and supervised learning (SL).