Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners.

Yazhou Xing Yingqing He Zeyue Tian Xintao Wang Qifeng Chen

Published in: CoRR (2024)

Keyphrases

open domain
visual information
information extraction
visual data
cross modal
question answering
visual features
audio visual
low level
multi modal
feature selection
co occurrence
question answering systems