Unter der Annahme einer ziemlich vernünftigen Datennormalisierung sollte die Erwartung der Gewichte Null sein oder nahe daran liegen. Es kann daher sinnvoll sein, alle anfänglichen Gewichte auf Null zu setzen, da ein positives anfängliches Gewicht noch weiter gehen muss, wenn es tatsächlich ein negatives Gewicht sein sollte, und umgekehrt. Dies funktioniert jedoch nicht. Wenn alle Gewichte gleich sind, haben sie alle den gleichen Fehler und das Modell lernt nichts - es gibt keine Quelle für Asymmetrie zwischen den Neuronen.
Stattdessen könnten wir die Gewichte sehr nahe an Null halten, sie jedoch durch Initialisieren auf kleine Zahlen ungleich Null unterscheiden. Dies wird in dem von Ihnen verknüpften Lernprogramm vorgeschlagen. Es hat den gleichen Vorteil der Nullpunktinitialisierung, da es in der Nähe des 'Best Guess'-Erwartungswerts liegt, aber die Symmetrie wurde auch so weit unterbrochen, dass der Algorithmus funktioniert.
Dieser Ansatz weist zusätzliche Probleme auf. Es ist nicht unbedingt richtig, dass kleinere Zahlen besser funktionieren, insbesondere wenn das neuronale Netzwerk tief ist. Die in Backpropagation berechneten Gradienten sind proportional zu den Gewichten; sehr kleine gewichte führen zu sehr kleinen steigungen und können dazu führen, dass das netzwerk viel, viel länger trainiert oder nie fertiggestellt wird.
s qr t ( d)d[ - 1d√, 1d√]