Dual-Path Cross-Modal Attention for Better Audio-Visual Speech Extraction.

Zhongweiyang Xu Xulin Fan Mark Hasegawa-Johnson

Published in: ICASSP (2023)

Keyphrases

cross modal
multi modal
visual speech
multimedia retrieval
image retrieval
visual data
hidden markov models
multimedia
visual recognition
multimedia databases
visual similarity
noisy environments
speaker identification
bit rate
video data
audio visual
feature vectors
image sequences