Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models.

Published in: ACL (1) (2024)

Keyphrases