Attention-Based Cross-Modal Fusion for Audio-Visual Voice Activity Detection in Musical Video Streams.

Published in: Interspeech (2021)

Keyphrases