BVA-Transformer: Image-text multimodal classification and dialogue model architecture based on Blip and visual attention mechanism.

Published in: Displays (2024)

Keyphrases