High-throughput Generative Inference of Large Language Models with a Single GPU.

Ying Sheng Lianmin Zheng Binhang Yuan Zhuohan Li Max Ryabinin Daniel Y. Fu Zhiqiang Xie Beidi Chen Clark W. Barrett Joseph E. Gonzalez Percy Liang Christopher Ré Ion Stoica Ce Zhang

Published in: CoRR (2023)