SpecInfer: Accelerating Large Language Model Serving with Tree-based Speculative Inference and Verification.

Xupeng Miao Gabriele Oliaro Zhihao Zhang Xinhao Cheng Zeyu Wang Zhengxin Zhang Rae Ying Yee Wong Alan Zhu Lijie Yang Xiaoxiang Shi Chunan Shi Zhuoming Chen Daiyaan Arfeen Reyna Abhyankar Zhihao Jia

Published in: ASPLOS (3) (2024)