ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching.

Youpeng Zhao Di Wu Jun Wang

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
language modelling
document retrieval
n gram
speech recognition
retrieval model
query expansion
information retrieval
mixture model
language model for information retrieval
bayesian networks
test collection
query terms
statistical language models
bayesian inference
context sensitive
high dimensional
smoothing methods
vector space model
document ranking
ad hoc information retrieval
language models for information retrieval
relevance model
query processing
word error rate
feature selection