USEV: Universal Speaker Extraction With Visual Cue.

Zexu Pan Meng Ge Haizhou Li

Published in: IEEE ACM Trans. Audio Speech Lang. Process. (2022)

Keyphrases

visual cues
low level
visual information
speech recognition
automatic extraction
speaker verification
cue integration
color images
hidden markov models
information retrieval
computer vision
high level
moving objects
relational databases
multi modal
audio visual