Quantization and Hardware Architecture Co-Design for Matrix-Vector Multiplications of Large Language Models.

Published in: IEEE Trans. Circuits Syst. I Regul. Pap. (2024)

Keyphrases