Layered gradient accumulation and modular pipeline parallelism: fast and efficient training of large language models.

Joel Lamy-Poirier

Published in: CoRR (2021)

Keyphrases

language model
language modeling
statistical language models
n gram
document retrieval
speech recognition
probabilistic model
language modelling
retrieval model
language model for information retrieval
context sensitive
query terms
test collection
query expansion
information retrieval
vector space model
pseudo relevance feedback
document ranking
information extraction
training set
okapi bm
ad hoc information retrieval
decision trees