MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts.

Zhenpeng Su Zijia Lin Xue Bai Xing Wu Yizhe Xiong Haoran Lian Guangyuan Ma Hui Chen Guiguang Ding Wei Zhou Songlin Hu

Published in: CoRR (2024)

Keyphrases