VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks.

Published in: NeurIPS (2023)

Keyphrases