GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model.

Shicheng Tan Weng Lam Tam Yuanchun Wang Wenwen Gong Yang Yang Hongyin Tang Keqing He Jiahao Liu Jingang Wang Shu Zhao Peng Zhang Jie Tang

Published in: CoRR (2023)

Keyphrases