Attention-based cross-modal fusion for audio-visual voice activity detection in musical video streams.

Published in: CoRR (2021)

Keyphrases