Publication: Visual Oriented Encoder: Integrating Multimodal and Multi-Scale Contexts for Video Captioning.