Multi-Modal Structure-Embedding Graph Transformer for Visual Commonsense Reasoning.

Jian Zhu Hanli Wang Bin He

Published in: IEEE Trans. Multim. (2024)

Keyphrases

multi modal
commonsense reasoning
cross modal
video search
multi modality
single modality
nonmonotonic reasoning
low level
event calculus
uni modal
high dimensional
domain knowledge
feature space
medical images
multiple modalities