TokenPacker: Efficient Visual Projector for Multimodal LLM.

Wentong Li Yuqian Yuan Jian Liu Dongqi Tang Song Wang Jianke Zhu Lei Zhang

Published in: CoRR (2024)

Keyphrases

cost effective
multi modal
computationally expensive
visual cues
neural network
multimedia
hidden markov models
multimodal information