Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling.

Bruno Korbar Jaesung Huh Andrew Zisserman

Published in: ICASSP (2024)

Keyphrases

audio visual
multi modal
visual information
visual data
temporal context
person authentication
multimedia
emotion recognition
multi stream
video summarization
multimodal fusion
computer vision
databases
information retrieval
multiscale
visual features