Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models.

Yiwu Zhong Zi-Yuan Hu Michael R. Lyu Liwei Wang

Published in: CoRR (2024)

Keyphrases

multi modal
cross modal
multi modality
video search
single modality
dimensionality reduction
visual information
image annotation
audio visual
humanoid robot