AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder.

Xingjian Diao Ming Cheng Shitong Cheng

Published in: CoRR (2023)

Keyphrases

audio visual
video summarization
visual data
multimedia
meeting room
multi modal
audio features
sports video
audio visual content
video sequences
temporal context
visual information
video data
video content
multimodal fusion
multimedia data
video streams
person authentication
audio visual speech recognition
space time
key frames
multimedia databases
temporal information
surveillance videos
video frames
low level