VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency.

Ruohan Gao Kristen Grauman

Published in: CoRR (2021)

Keyphrases

cross modal
visual speech
multi modal
hidden markov models
multimedia retrieval
image retrieval
speaker identification
visual data
noisy environments
visual recognition
audio signals
speech signal
visual similarity
audio signal
multimedia
image data
text to speech