Boost Transformer-based Language Models with GPU-Friendly Sparsity and Quantization.

Chong Yu Tao Chen Zhongxue Gan

Published in: ACL (Findings) (2023)

Keyphrases

language model
language modeling
speech recognition
probabilistic model
n gram
document retrieval
retrieval model
information retrieval
language modelling
query expansion
test collection
smoothing methods
high dimensional
document ranking
vector space model
ad hoc information retrieval
context sensitive
pseudo relevance feedback
translation model
statistical language models
query specific
query terms
clustering algorithm
machine learning