Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer.

Paul-Ambroise Duquenne Holger Schwenk Benoît Sagot

Published in: CoRR (2023)

Keyphrases

cross modal
multi modal
multimedia retrieval
visual recognition
image retrieval
multimedia databases
visual data
perceptual information
visual similarity
transfer learning