Constraint-aware and Ranking-distilled Token Pruning for Efficient Transformer Inference.

Junyan Li Li Lyna Zhang Jiahang Xu Yujing Wang Shaoguang Yan Yunqing Xia Yuqing Yang Ting Cao Hao Sun Weiwei Deng Qi Zhang Mao Yang

Published in: KDD (2023)

Keyphrases