Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation.

Jinxiang Liu Chen Ju Chaofan Ma Yanfeng Wang Yu Wang Ya Zhang

Published in: CoRR (2023)

Keyphrases

audio visual
multi modal
temporal segmentation
visual information
query processing
visual data
database
multi stream
audio visual speech recognition
audio features
multimedia
emotion recognition
multimodal fusion
relevance feedback
data sources
retrieval systems
multiscale
image features
hidden markov models
keywords