MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers.

Published in: ACL/IJCNLP (Findings) (2021)

Keyphrases