Unsupervised Audio-Caption Aligning Learns Correspondences Between Individual Sound Events and Textual Phrases.

Published in: ICASSP (2022)

Keyphrases