Be Specific, Be Clear: Bridging Machine and Human Captions by Scene-Guided Transformer.

Yupan Huang Zhaoyang Zeng Yutong Lu

Published in: MMPT@ICMR (2021)

Keyphrases

single image
image sequences
fuzzy logic
domain specific
three dimensional
fault diagnosis
d scene
real scenes
computer vision
visual features
multiple views
camera calibration
human activities
complex scenes
scene analysis
static images