Contrastive Conditional Latent Diffusion for Audio-visual Segmentation.

Yuxin Mao Jing Zhang Mochu Xiang Yunqiu Lv Yiran Zhong Yuchao Dai

Published in: CoRR (2023)

Keyphrases

audio visual
multi modal
image segmentation
visual information
temporal context
multiscale
multi stream
visual data
audio visual speech recognition
video summarization
person authentication
emotion recognition
multimedia
edge detection
databases
training set
image regions
wordnet
feature space