Learning Online Alignments with Continuous Rewards Policy Gradient.

Yuping Luo Chung-Cheng Chiu Navdeep Jaitly Ilya Sutskever

Published in: CoRR (2016)

Keyphrases

reinforcement learning
policy gradient
learning algorithm
learning process
actor critic
learning tasks
neural network
reinforcement learning methods
supervised learning
policy gradient methods
model free reinforcement learning