DialCLIP: Empowering Clip As Multi-Modal Dialog Retriever.

Zhichao Yin Binyuan Hui Min Yang Fei Huang Yongbin Li

Published in: ICASSP (2024)

Keyphrases

multi modal
multi modality
video clips
audio visual
high dimensional
image annotation
video search
cross modal
smart room
machine learning
feature selection
humanoid robot
semantic concepts