LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression.

Published in: CoRR (2024)

Keyphrases