SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning.

Published in: CoRR (2020)

Keyphrases

space time
search space
video sequences
video streams
video data
video content
image features
visual attention
fuzzy logic
neural network
fault diagnosis
text classification
probabilistic model
real time
low dimensional
machine learning
motion features
combining information from multiple