SPGISpeech: 5, 000 hours of transcribed financial audio for fully formatted end-to-end speech recognition.

Patrick K. O'Neill Vitaly Lavrukhin Somshubra Majumdar Vahid Noroozi Yuekai Zhang Oleksii Kuchaiev Jagadeesh Balam Yuliya Dovzhenko Keenan Freyberg Michael D. Shulman Boris Ginsburg Shinji Watanabe Georg Kucsko

Published in: CoRR (2021)