SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models.

Haojie Duanmu Zhihang Yuan Xiuhong Li Jiangfei Duan Xingcheng Zhang Dahua Lin

Published in: CoRR (2024)