TAMformer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction.

Nada Osman Guglielmo Camporese Lamberto Ballan

Published in: ICASSP (2023)

Keyphrases

multi modal
image annotation
multi modality
high dimensional
cross modal
fuzzy logic
fault diagnosis
audio visual
semantic concepts
computer vision
face recognition
image classification