MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention.

Huiqiang Jiang Yucheng Li Chengruidong Zhang Qianhui Wu Xufang Luo Surin Ahn Zhenhua Han Amir H. Abdi Dongsheng Li Chin-Yew Lin Yuqing Yang Lili Qiu

Published in: CoRR (2024)

Keyphrases