A 17-95.6 TOPS/W Deep Learning Inference Accelerator with Per-Vector Scaled 4-bit Quantization for Transformers in 5nm.

Published in: VLSI Technology and Circuits (2022)

Keyphrases