TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction.

Nada Osman Guglielmo Camporese Lamberto Ballan

Published in: CoRR (2022)

Keyphrases

multi modal
audio visual
multi modality
high dimensional
fuzzy logic
cross modal
video search
x ray
fault diagnosis
semantic concepts