Publication: Multimodal Encoder-Decoder Attention Networks for Visual Question Answering.