Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity Recognition.

Jingcheng Li Lina Yao Binghao Li Claude Sammut

Published in: CoRR (2023)

Keyphrases

multi modal
human activity recognition
multi modality
activity recognition
human activities
fusing multiple
single modality
audio visual
cross modal
high dimensional
video search
high level
image sequences
object recognition
text mining
visual surveillance