CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving.

Yuhan Liu Hanchen Li Yihua Cheng Siddhant Ray Yuyang Huang Qizheng Zhang Kuntai Du Jiayi Yao Shan Lu Ganesh Ananthanarayanan Michael Maire Henry Hoffmann Ari Holtzman Junchen Jiang

Published in: SIGCOMM (2024)