One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving.

Archit Patke Dhemath Reddy Saurabh Jha Haoran Qiu Christian Pinto Shengkun Cui Chandra Narayanaswami Zbigniew Kalbarczyk Ravishankar K. Iyer

Published in: CoRR (2024)