Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding.

Zhuoming Chen Avner May Ruslan Svirschevski Yuhsun Huang Max Ryabinin Zhihao Jia Beidi Chen

Published in: CoRR (2024)