Gated Linear Attention Transformers with Hardware-Efficient Training.

Songlin Yang Bailin Wang Yikang Shen Rameswar Panda Yoon Kim

Published in: CoRR (2023)

Keyphrases

low cost
real time
database
image processing
computationally expensive
training set
computing systems
computing power
data sets
case study
active learning
data acquisition
training algorithm
linear systems
linear space