XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception.

Published in: ACL (1) (2024)

Keyphrases