Causal Interpretation of Self-Attention in Pre-Trained Transformers.

Raanan Y. Rohekar Yaniv Gurwicz Shami Nisimov

Published in: NeurIPS (2023)

Keyphrases

pre trained
training data
training examples
viewpoint
control signals
bayesian networks
focus of attention