Efficient large-scale language model training on GPU clusters using megatron-LM.

Deepak Narayanan Mohammad Shoeybi Jared Casper Patrick LeGresley Mostofa Patwary Vijay Korthikanti Dmitri Vainbrand Prethvi Kashinkunti Julie Bernauer Bryan Catanzaro Amar Phanishayee Matei Zaharia

Published in: SC (2021)

Keyphrases

language model
language modeling
probabilistic model
language modelling
n gram
retrieval model
document retrieval
information retrieval
test collection
speech recognition
query expansion
query terms
mixture model
ad hoc information retrieval
pseudo feedback
context sensitive
relevance model
document ranking
clustering algorithm
term dependencies
vector space model
statistical language models
retrieval effectiveness
statistical language modeling
language model for information retrieval
smoothing methods
translation model