ServerlessLLM: Low-Latency Serverless Inference for Large Language Models.

Published in: OSDI (2024)

Keyphrases