Self-Selected Attention Span for Accelerating Large Language Model Inference.

Tian Jin Wanzin Yazar Zifei Xu Sayeh Sharify Xin Wang

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
probabilistic model
query expansion
speech recognition
information retrieval
retrieval model
document retrieval
test collection
language modelling
context sensitive
bayesian networks
smoothing methods
statistical language models
mixture model
vector space model
translation model
bayesian inference
ad hoc information retrieval
relevance model
document ranking
retrieval effectiveness
language models for information retrieval
word clouds
query specific
dependency structure
relevant documents
pseudo feedback
hidden markov models