Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models.

Soham De Samuel L. Smith Anushan Fernando Aleksandar Botev George-Cristian Muraru Albert Gu Ruba Haroun Leonard Berrada Yutian Chen Srivatsan Srinivasan Guillaume Desjardins Arnaud Doucet David Budden Yee Whye Teh Razvan Pascanu Nando de Freitas Caglar Gulcehre

Published in: CoRR (2024)