Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems.

Jack FitzGerald Shankar Ananthakrishnan Konstantine Arkoudas Davide Bernardi Abhishek Bhagia Claudio Delli Bovi Jin Cao Rakesh Chada Amit Chauhan Luoxin Chen Anurag Dwarakanath Satyam Dwivedi Turan Gojayev Karthik Gopalakrishnan Thomas Gueudre Dilek Hakkani-Tur Wael Hamza Jonathan J. Hüser Kevin Martin Jose Haidar Khan Beiye Liu Jianhua Lu Alessandro Manzotti Pradeep Natarajan Karolina Owczarzak Gokmen Oz Enrico Palumbo Charith Peris Chandana Satya Prakash Stephen Rawls Andy Rosenbaum Anjali Shenoy Saleh Soltan Mukund Harakere Sridhar Lizhen Tan Fabian Triefenbach Pan Wei Haiyang Yu Shuai Zheng Gökhan Tür Prem Natarajan

Published in: KDD (2022)

Keyphrases