Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners.

Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei Xudong Lin Shuohang Wang Ziyi Yang Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji

Published in: NeurIPS (2022)