Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer.

Paul-Ambroise Duquenne Holger Schwenk Benoît Sagot

Published in: INTERSPEECH (2023)

Keyphrases

cross modal
multi modal
multimedia retrieval
visual recognition
image retrieval
multimedia databases
visual similarity
multimedia
transfer learning
perceptual information