Publication: Language-guided Multi-Modal Fusion for Video Action Recognition.