AVATAR: Unconstrained Audiovisual Speech Recognition.

Valentin Gabeur Paul Hongsuck Seo Arsha Nagrani Chen Sun Karteek Alahari Cordelia Schmid

Published in: INTERSPEECH (2022)

Keyphrases

speech recognition
hidden markov models
speech synthesis
speech processing
automatic speech recognition
speech signal
language model
pattern recognition
speech recognition technology
speech recognizer
handwriting recognition
video retrieval
speech understanding
speaker identification
multimedia content
keyword spotting
maximum likelihood
audio visual
speech recognition errors
speech recognition systems
visual information
noisy environments
cepstral coefficients
speech retrieval
multi modal
background noise
emotion recognition