Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling.

Bruno Korbar Jaesung Huh Andrew Zisserman

Published in: CoRR (2024)

Keyphrases

audio visual
multi modal
visual information
visual data
video summarization
multimedia
temporal context
audio visual speech recognition
emotion recognition
person authentication
multi stream
multimodal fusion