Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability.

Jorge García-Carrasco Alejandro Maté Juan Trujillo

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
speech recognition
probabilistic model
language modelling
document retrieval
information retrieval
query expansion
retrieval model
smoothing methods
test collection
statistical language models
ad hoc information retrieval
context sensitive
translation model
query terms
prediction accuracy
language model for information retrieval
document ranking
language models for information retrieval
relevance model