Publication: A Text-Image Pair Is Not Enough: Language-Vision Relation Inference with Auxiliary Modality Translation.