Quant-LLM: Accelerating the Serving of Large Language Models via FP6-Centric Algorithm-System Co-Design on Modern GPUs.

Haojun Xia Zhen Zheng Xiaoxia Wu Shiyang Chen Zhewei Yao Stephen Youn Arash Bakhtiari Michael Wyatt Donglin Zhuang Zhongzhu Zhou Olatunji Ruwase Yuxiong He Shuaiwen Leon Song

Published in: USENIX ATC (2024)

Keyphrases