Bridging the cross-modal gap using adversarial training for speech-to-text translation.

Hao Zhang Xukui Yang Dan Qu Zhen Li

Published in: Digit. Signal Process. (2022)

Keyphrases

cross modal
multi modal
multimedia retrieval
image retrieval
multimedia databases
perceptual information
training examples
visual data
natural language processing
visual recognition
visual similarity