ViCLEVR: a visual reasoning dataset and hybrid multimodal fusion model for visual question answering in Vietnamese.

Published in: Multim. Syst. (2024)

Keyphrases