Mutatt: Visual-Textual Mutual Guidance For Referring Expression Comprehension.

Shuai Wang Fan Lyu Wei Feng Song Wang

Published in: ICME (2020)

Keyphrases

visual representations
visual features
visual information
metadata
high level
low level
visual perception
natural language
object recognition
neural network
visual representation
multi modal
textual features
visual exploration
concept mapping
visual appearance
user generated
keywords
case study
multimedia
learning algorithm