ViTA: Visual-Linguistic Translation by Aligning Object Tags.

Kshitij Gupta Devansh Gautam Radhika Mamidi

Published in: WAT@ACL/IJCNLP (2021)

Keyphrases

visual objects
visual appearance
web objects
spatial relations
complex objects
visual concepts
visual properties
visual information
visual scene
keywords
visual input
data objects
natural language processing
d objects
visual perception
web resources
syntactic analysis
contextual cues
spatial configurations
part of speech
cross language information retrieval
object model
object tracking
image regions
visual features
vision system
low level
natural language