CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation.

Yan Zhou Qingkai Fang Yang Feng

Published in: CoRR (2023)

Keyphrases

cross modal
multi modal
multimedia databases
visual data
multimedia
low level
visual recognition
multimedia retrieval