Towards Weakly Supervised Text-to-Audio Grounding.

Xuenan Xu Ziyang Ma Mengyue Wu Kai Yu

Published in: CoRR (2024)

Keyphrases

weakly supervised
semantic attributes
relation extraction
object class
topic models
superpixels
information retrieval
semi supervised
named entities
unsupervised learning
object detectors
denoising
visual information
object recognition
automatic extraction
multiscale
computer vision
machine learning