USEV: Universal Speaker Extraction with Visual Cue.

Zexu Pan Meng Ge Haizhou Li

Published in: CoRR (2021)

Keyphrases

visual cues
low level
visual information
information extraction
automatic extraction
neural network
domain knowledge
speech recognition
audio visual
e learning
object recognition
speaker recognition
turing machine
speaker diarization