Byte Pair Encoding is Suboptimal for Language Model Pretraining.

Kaj Bostrom Greg Durrett

Published in: EMNLP (Findings) (2020)

Keyphrases

language model
language modeling
information retrieval
probabilistic model
speech recognition
document retrieval
n gram
language modelling
query expansion
context sensitive
retrieval model
mixture model
test collection
query terms
ad hoc information retrieval
statistical language models
document length
relevance model
smoothing methods
document ranking
language models for information retrieval
pairwise
statistical machine translation
translation model
vector space model
cross lingual
text classification
machine learning