DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing.

Pengcheng He Jianfeng Gao Weizhu Chen

Published in: ICLR (2023)

Keyphrases

training set
training phase
training examples
training algorithm
data hiding
neural network
image processing
training samples
information sharing
vector space
training process
nonlinear dimensionality reduction