LLM in a flash: Efficient Large Language Model Inference with Limited Memory.

Keivan Alizadeh Iman Mirzadeh Dmitry Belenko Karen Khatamifard Minsik Cho Carlo C. Del Mundo Mohammad Rastegari Mehrdad Farajtabar

Published in: CoRR (2023)