CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations.

Hang Li Yu Kang Tianqiao Liu Wenbiao Ding Zitao Liu

Published in: CoRR (2021)

Keyphrases

cross modal
multi modal
semantic representations
image retrieval
visual data
multimedia databases
multimedia retrieval
natural language
visual recognition
multimedia
training set
perceptual information
information retrieval
supervised learning
document collections
training examples