Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers.

Yi Tay Mostafa Dehghani Jinfeng Rao William Fedus Samira Abnar Hyung Won Chung Sharan Narang Dani Yogatama Ashish Vaswani Donald Metzler

Published in: CoRR (2021)