D3Net: A Speaker-Listener Architecture for Semi-supervised Dense Captioning and Visual Grounding in RGB-D Scans.

Published in: CoRR (2021)

Keyphrases