Publication: Hierarchical Conditional Relation Networks for Multimodal Video Question Answering.