Efficient Training of Language Models with Compact and Consistent Next Token Distributions.

Ashutosh Sathe Sunita Sarawagi

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
language modelling
n gram
statistical language models
document retrieval
retrieval model
information retrieval
speech recognition
language model for information retrieval
mixture model
query expansion
test collection
context sensitive
smoothing methods
vector space model
tf idf
document ranking
information retrieval systems
training set
ad hoc information retrieval
language models for information retrieval
training data