ImagineNet: Target Speaker Extraction with Intermittent Visual Cue Through Embedding Inpainting.

Zexu Pan Wupeng Wang Marvin Borsdorf Haizhou Li

Published in: ICASSP (2023)

Keyphrases

visual cues
visual information
low level
cue integration
information extraction
vector space
speech recognition
image restoration
speaker verification
audio visual
visual features
information retrieval
denoising
e learning
dimensionality reduction
object recognition
three dimensional
image processing