Width of Minima Reached by Stochastic Gradient Descent is Influenced by Learning Rate to Batch Size Ratio.

Published in: ICANN (3) (2018)

Keyphrases