Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts.

Sheng Shen Le Hou Yanqi Zhou Nan Du Shayne Longpre Jason Wei Hyung Won Chung Barret Zoph William Fedus Xinyun Chen Tu Vu Yuexin Wu Wuyang Chen Albert Webson Yunxuan Li Vincent Zhao Hongkun Yu Kurt Keutzer Trevor Darrell Denny Zhou

Published in: CoRR (2023)