Multimodal Transformer Distillation for Audio-Visual Synchronization.

Xuanjun Chen Haibin Wu Chung-Che Wang Hung-Yi Lee Jyh-Shing Roger Jang

Published in: ICASSP (2024)

Keyphrases

audio visual
multi stream
multi modal
audio visual speech recognition
visual information
multimodal fusion
multimedia
temporal context
visual data
person authentication
hidden markov models
emotion recognition
audio features
high dimensional
databases
multimodal data
data sets