Masked Audio Text Encoders are Effective Multi-Modal Rescorers.

Jinglun Cai Monica Sunkara Xilai Li Anshu Bhatia Xiao Pan Sravan Bodapati

Published in: ACL (Findings) (2023)

Keyphrases

multi modal
audio visual
cross modal
single modality
multi modality
multimedia
high dimensional
video search
multiple modalities
text graphics
text mining
keywords
image annotation
feature extraction
text retrieval
semantic concepts