Global-Shared Text Representation Based Multi-Stage Fusion Transformer Network for Multi-Modal Dense Video Captioning.

Published in: IEEE Trans. Multim. (2024)

Keyphrases