: Increasing GPU Utilization during Generative Inference for Higher Throughput.

Yunho Jin Chun-Feng Wu David Brooks Gu-Yeon Wei

Published in: CoRR (2023)

Keyphrases

higher throughput
real time