LLM in a flash: Efficient Large Language Model Inference with Limited Memory.

Keivan Alizadeh Seyed-Iman Mirzadeh Dmitry Belenko S. Khatamifard Minsik Cho Carlo C. del Mundo Mohammad Rastegari Mehrdad Farajtabar

Published in: ACL (1) (2024)