Should I try multiple optimizers when fine-tuning a pre-trained Transformer for NLP tasks? Should I tune their hyperparameters?

Published in: EACL (1) (2024)

Keyphrases