Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding.

Published in: ACL (Findings) (2024)

Keyphrases