Audio-Visual Information Fusion Using Cross-Modal Teacher-Student Learning for Voice Activity Detection in Realistic Environments.

Published in: Interspeech (2021)

Keyphrases