Multi-Token Joint Speculative Decoding for Accelerating Large Language Model Inference.

Zongyue Qin Ziniu Hu Zifan He Neha Prakriya Jason Cong Yizhou Sun

Published in: CoRR (2024)

Keyphrases

language model
language modeling
n gram
query expansion
document retrieval
information retrieval
probabilistic model
language modelling
test collection
retrieval model
smoothing methods
speech recognition
query terms
context sensitive
statistical language models
ad hoc information retrieval
pseudo relevance feedback
document ranking
language models for information retrieval
mixture model
word error rate
relevance model
bayesian inference
document length
web search
bayesian networks