QuickLLaMA: Query-aware Inference Acceleration for Large Language Models.

Published in: CoRR (2024)

Keyphrases