Multimodal feature fusion based on object relation for video captioning.

Zhiwen Yan Ying Chen Jinlong Song Jia Zhu

Published in: CAAI Trans. Intell. Technol. (2023)

Keyphrases

feature fusion
feature extraction
multiple features
video sequences
multi modal
video data
d objects
video frames
data reduction
canonical correlation analysis