Maximal Initial Learning Rates in Deep ReLU Networks.

Gaurav Iyer Boris Hanin David Rolnick

Published in: ICML (2023)

Keyphrases

learning rate
convergence rate
covering numbers
learning algorithm
error function
gaussian kernels
uniform convergence
supervised learning
hidden layer
data mining
lower bound
global optimization
convergence speed
activation function