Understanding and Mitigating Tokenization Bias in Language Models.

Buu Phan Marton Havasi Matthew J. Muckley Karen Ullrich

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
probabilistic model
language modelling
document retrieval
speech recognition
information retrieval
pseudo relevance feedback
retrieval model
query expansion
test collection
statistical language models
context sensitive
ad hoc information retrieval
named entities
smoothing methods
word error rate
relevance model
translation model
document ranking
vector space model
passage retrieval
cross lingual
query terms
information retrieval systems