Progressive Confident Masking Attention Network for Audio-Visual Segmentation.

Yuxuan Wang Feng Dong Jinchao Zhu

Published in: CoRR (2024)

Keyphrases

audio visual
multi modal
visual information
multi stream
image segmentation
visual data
video summarization
multimedia
multimodal fusion
databases
multiscale
spatio temporal
pose estimation
audio visual speech recognition