Das mag für jemanden albern klingen, der viel Erfahrung mit neuronalen Netzen hat, aber es stört mich ...
Ich meine, die Randomisierung der Anfangsgewichte könnte zu besseren Ergebnissen führen, die etwas näher an dem liegen, wie das trainierte Netzwerk aussehen sollte, aber es könnte genauso gut das genaue Gegenteil von dem sein, was es sein sollte, während 0,5 oder ein anderer Durchschnitt für den Bereich des angemessenen Gewichts Wert klingt nach einer guten Standardeinstellung ...
Warum werden die Anfangsgewichte für Neuronen eher randomisiert als 0,5 für alle?
neural-networks
training
Matas Vaitkevicius
quelle
quelle
Antworten:
Die anfänglichen Gewichte in einem neuronalen Netzwerk werden zufällig initialisiert, da die gradientenbasierten Methoden, die üblicherweise zum Trainieren neuronaler Netzwerke verwendet werden, nicht gut funktionieren, wenn alle Gewichte auf den gleichen Wert initialisiert werden. Obwohl nicht alle Methoden zum Trainieren neuronaler Netze gradientenbasiert sind, sind es die meisten, und es wurde in mehreren Fällen gezeigt, dass das Initialisieren des neuronalen Netzes auf denselben Wert dazu führt, dass das Netzwerk viel länger braucht, um zu einer optimalen Lösung zu konvergieren. Wenn Sie Ihr neuronales Netzwerk neu trainieren möchten, weil es in lokalen Minima stecken geblieben ist, bleibt es in denselben lokalen Minima stecken. Aus den oben genannten Gründen setzen wir die Anfangsgewichte nicht auf einen konstanten Wert.
Referenzen: Warum funktioniert die Backpropagation nicht, wenn Sie die Gewichte mit demselben Wert initialisieren?
quelle
Sie sollten nicht alle 0,5 zuweisen, da Sie das Problem "Unterbrechungssymmetrie" haben würden.
quelle
Das ist eine sehr tiefe Frage. Kürzlich gab es eine Reihe von Arbeiten mit dem Nachweis der Konvergenz des Gradientenabfalls für überparametrisierte tiefe Netzwerke (z. B. Gradientenabstieg findet globale Minima tiefer neuronaler Netze , eine Konvergenztheorie für tiefes Lernen durch Überparametrisierung oder stochastischen Gradientenabstieg optimiert überparametrisierte Tiefen ReLU-Netzwerke ). Alle von ihnen bedingen den Beweis einer zufälligen Gaußschen Gewichtsverteilung. Es ist wichtig, dass Beweise von zwei Faktoren abhängen:
Zufällige Gewichte machen die statistisch komprimierende Zuordnung von ReLU (bis zur linearen Transformation)
Zufällige Gewichte bewahren die Trennung der Eingaben für jede Eingabeverteilung - das heißt, wenn Eingabebeispiele unterscheidbar sind, werden sie durch die Netzwerkausbreitung nicht ununterscheidbar
Diese Eigenschaften sind mit deterministischen Matrizen sehr schwer zu reproduzieren, und selbst wenn sie mit deterministischen Matrizen reproduzierbar sind, würde der NULL-Raum (Bereich der gegnerischen Beispiele) die Methode wahrscheinlich unpraktisch machen, und eine wichtigere Erhaltung dieser Eigenschaften während des Gradientenabfalls würde die Methode wahrscheinlich unpraktisch machen. Aber insgesamt ist es sehr schwierig, aber nicht unmöglich und kann einige Forschungen in diese Richtung rechtfertigen. In einer analogen Situation gab es einige Ergebnisse für die Restricted Isometry Property für deterministische Matrizen bei der komprimierten Erfassung .
quelle