CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes.

Published in: CVPR Workshops (2023)

Keyphrases