A Multimodal Interpretable Visual Question Answering Model Introducing Image Caption Processor.

He Zhu Ren Togo Takahiro Ogawa Miki Haseyama

Published in: GCCE (2022)

Keyphrases

question answering
image features
image classification
low level
information extraction
multi modal
image content
automatically generated
question classification