Convolutions and Self-Attention: Re-interpreting Relative Positions in Pre-trained Language Models.

Tyler A. Chang Yifan Xu Weijian Xu Zhuowen Tu

Published in: CoRR (2021)

Keyphrases

language model
relative position
pre trained
language modeling
geometric properties
n gram
speech recognition
probabilistic model
information retrieval
training data
query expansion
training examples
spatial relationships
smoothing methods
language models for information retrieval
control signals
relevance model
multiscale
decision trees