Watch, Listen and Tell: Multi-Modal Weakly Supervised Dense Event Captioning.

Tanzila Rahman Bicheng Xu Leonid Sigal

Published in: ICCV (2019)

Keyphrases

multi modal
weakly supervised
topic models
superpixels
object class
semi supervised
relation extraction
high dimensional
multiscale
text mining
partial occlusion
information extraction
natural language processing
semantic relations