LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading.

Leyuan Qu Cornelius Weber Stefan Wermter

Published in: CoRR (2021)

Keyphrases

lip reading
visual speech recognition
speaker identification
head tracking
expression recognition
visual speech
image reconstruction
speech recognition
training samples
test set
gaussian mixture model
facial expression recognition
face detection
broadcast news