Publication: Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning.