Sparse Autoencoders Find Highly Interpretable Features in Language Models.

Robert Huben Hoagy Cunningham Logan Riggs Aidan Ewart Lee Sharkey

Published in: ICLR (2024)

Keyphrases

language model
language modeling
probabilistic model
information retrieval
n gram
speech recognition
document retrieval
statistical language models
query expansion
retrieval model
language modelling
high dimensional
language models for information retrieval
denoising
image features
test collection
semantic information
vector space model
document ranking
term dependencies
smoothing methods
feature vectors