How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model.

Michael Hanna Ollie Liu Alexandre Variengien

Published in: NeurIPS (2023)

Keyphrases

language model
pre trained
language modeling
n gram
document retrieval
training data
probabilistic model
speech recognition
retrieval model
ad hoc information retrieval
query expansion
information retrieval
training examples
language modelling
test collection
smoothing methods
mixture model
decision trees
context sensitive
computer vision
translation model
neural network
maximum likelihood
machine translation
relevance model