Explore and Tell: Embodied Visual Captioning in 3D Environments.

Anwen Hu Shizhe Chen Liang Zhang Qin Jin

Published in: ICCV (2023)

Keyphrases

visual information
dynamic environments
visual features
multi modal
visual appearance
visual data
databases
real world
neural network
high level
low level
case study
context aware
multimedia
image processing
information systems
complex environments
visual perception