Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers.

Zonglin Li Chong You Srinadh Bhojanapalli Daliang Li Ankit Singh Rawat Sashank J. Reddi Ke Ye Felix X. Chern Felix X. Yu Ruiqi Guo Sanjiv Kumar

Published in: CoRR (2022)

Keyphrases