A Practical Two-Stage Training Strategy for Multi-Stream End-to-End Speech Recognition.

Ruizhi Li Gregory Sell Xiaofei Wang Shinji Watanabe Hynek Hermansky

Published in: ICASSP (2020)

Keyphrases

end to end
audio visual speech recognition
multi stream
speech recognition
hidden markov models
audio visual
isolated word
language model
acoustic models
congestion control
automatic speech recognition
noisy environments
pattern recognition
speech signal
discriminative training
speech synthesis
machine learning
speaker identification
speech recognizer
training set
neural network
multi modal
high dimensional
speech recognition systems
speaker independent