InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks.

Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen Sen Xing Muyan Zhong Qinglong Zhang Xizhou Zhu Lewei Lu Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai

Published in: CoRR (2023)

Keyphrases