FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU.

Published in: ICML (2023)

Keyphrases