Robust Audio-Visual ASR with Unified Cross-Modal Attention.

Jiahong Li Chenda Li Yifei Wu Yanmin Qian

Published in: ICASSP (2023)

Keyphrases

audio visual
cross modal
multi modal
visual data
multimedia
visual information
high dimensional
noisy environments
multimedia retrieval
data sets
search engine
high dimensional data
visual similarity