Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection.

Taku Kato Takahiro Shinozaki

Published in: ICASSP (2018)

Keyphrases

policy gradient
reinforcement learning
actor critic
policy search
function approximation
reinforcement learning algorithms
optimal control
policy gradient methods
gradient method
model free reinforcement learning
approximation methods
state space
optimal policy
average reward
reinforcement learning methods
state action
machine learning
multi agent
variance reduction
partially observable markov decision processes
markov decision processes
temporal difference
transfer learning
temporal difference learning
markov decision process
dynamic programming
model free