Aligning Audiovisual Features for Audiovisual Speech Recognition.

Fei Tao Carlos Busso

Published in: ICME (2018)

Keyphrases

isolated word
speech recognition
speech recognition systems
hidden markov models
language model
cepstral coefficients
speech signal
pattern recognition
speech processing
speech recognition technology
speech synthesis
speech recognizer
noisy environments
multimedia content
visual information
feature vectors
speaker identification
audio visual
video clips
emotion recognition
feature set
speech understanding
keyword spotting
speaker independent
speech retrieval
speech recognizers
low level
multi modal
information retrieval