Publication: Temporal-enhanced Cross-modality Fusion Network for Video Sentence Grounding.