ImagineNET: Target Speaker Extraction with Intermittent Visual Cue through Embedding Inpainting.

Zexu Pan Wupeng Wang Marvin Borsdorf Haizhou Li

Published in: CoRR (2022)

Keyphrases

visual cues
low level
information extraction
image restoration
cue integration
speech recognition
visual information
key frames
vector space
image inpainting
audio visual
feature selection
watermarking algorithm
denoising
speaker verification
resolution enhancement
hidden markov models