Scalable and Efficient MoE Training for Multitask Multilingual Models.

Young Jin Kim Ammar Ahmad Awan Alexandre Muzio Andrés Felipe Cruz-Salinas Liyang Lu Amr Hendy Samyam Rajbhandari Yuxiong He Hany Hassan Awadalla

Published in: CoRR (2021)

Keyphrases