ViLLa: Video Reasoning Segmentation with Large Language Model.

Rongkun Zheng Lu Qi Xi Chen Yi Wang Kun Wang Yu Qiao Hengshuang Zhao

Published in: CoRR (2024)

Keyphrases