CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation.

Yan Zhou Qingkai Fang Yang Feng

Published in: ACL (1) (2023)

Keyphrases

cross modal
multi modal
visual recognition
image retrieval
image classification
multimedia databases
multimedia retrieval
language model
similarity search
visual data