End-to-End multi-talker audio-visual ASR using an active speaker attention module.

Richard Rose Olivier Siohan

Published in: INTERSPEECH (2022)

Keyphrases

audio visual
end to end
multi modal
visual information
sound source
speaker verification
automatic speech recognition
visual data
congestion control
multimedia
speech recognition
emotion recognition
audio features
multi stream
human body
visual features
search engine
text localization and recognition