Es ist ziemlich intuitiv, dass die meisten Topologien / Architekturen neuronaler Netze nicht identifizierbar sind. Aber was sind einige bekannte Ergebnisse auf diesem Gebiet? Gibt es einfache Bedingungen, die eine Identifizierbarkeit ermöglichen / verhindern? Zum Beispiel,
- Alle Netzwerke mit nichtlinearen Aktivierungsfunktionen und mehr als einer verborgenen Schicht sind nicht identifizierbar
- Alle Netzwerke mit mehr als zwei versteckten Einheiten sind nicht identifizierbar
Oder solche Dinge. HINWEIS : Ich sage nicht, dass diese Bedingungen die Identifizierbarkeit verhindern (obwohl sie mir als ziemlich gute Kandidaten erscheinen). Sie sind nur Beispiele dafür, was ich mit "einfachen Bedingungen" meine.
Wenn es hilft, die Frage einzugrenzen, können Sie nur Feed-Forward- und wiederkehrende Architekturen berücksichtigen. Wenn dies immer noch nicht ausreicht, würde ich mich mit einer Antwort zufrieden geben, die mindestens eine Architektur zwischen MLP, CNN und RNN abdeckt. Ich habe mich im Web kurz umgesehen, aber es sieht so aus, als ob die einzige Diskussion, die ich finden konnte, Reddit war. Komm schon, Leute, wir können es besser machen als Reddit ;-)
Antworten:
Lineare einschichtige FFNs sind nicht identifiziert
Die Frage wurde seitdem bearbeitet, um diesen Fall auszuschließen. Ich behalte es hier bei, weil das Verständnis des linearen Falls ein einfaches Beispiel für das interessierende Phänomen ist.
Betrachten Sie ein vorwärts gerichtetes neuronales Netzwerk mit 1 verborgenen Schicht und allen linearen Aktivierungen. Die Aufgabe ist eine einfache OLS-Regressionsaufgabe.
Wir haben also das Modell und das Ziel isty^= X.A B.
für eine Auswahl von von geeigneter Form. ist das Gewicht von Eingabe zu Verstecktheit und ist das Gewicht von Versteckt zu Ausgabe.A , B. EIN B.
Offensichtlich sind die Elemente der Gewichtsmatrizen im Allgemeinen nicht identifizierbar, da es eine beliebige Anzahl möglicher Konfigurationen gibt, für die zwei Matrizenpaare das gleiche Produkt haben.A , B.
Nichtlineare einschichtige FFNs sind noch nicht identifiziert
Aufbauend auf dem linearen einschichtigen FFN können wir auch eine Nichtidentifizierbarkeit im nichtlinearen einschichtigen FFN beobachten.
Wenn Sie beispielsweise einer der linearen Aktivierungen eine Nichtlinearität hinzufügen, wird ein nichtlineares Netzwerk erstellt. Dieses Netzwerk ist immer noch nicht identifiziert, da für jeden Verlustwert eine Permutation der Gewichte von zwei (oder mehr) Neuronen auf einer Schicht und ihren entsprechenden Neuronen auf der nächsten Schicht ebenfalls zu demselben Verlustwert führt.tanh
Im Allgemeinen werden neuronale Netze nicht identifiziert
Wir können dieselbe Argumentation verwenden, um zu zeigen, dass neuronale Netze in allen bis auf ganz bestimmte Parametrisierungen nicht identifiziert werden.
Zum Beispiel gibt es keinen besonderen Grund, warum Faltungsfilter in einer bestimmten Reihenfolge auftreten müssen. Es ist auch nicht erforderlich, dass Faltungsfilter ein bestimmtes Vorzeichen haben, da nachfolgende Gewichte das entgegengesetzte Vorzeichen haben könnten, um diese Wahl "umzukehren".
Ebenso können die Einheiten in einem RNN permutiert werden, um den gleichen Verlust zu erhalten.
Siehe auch: Können wir MLE verwenden, um die Gewichte des neuronalen Netzwerks zu schätzen?
quelle
Da mindestensglobale Optima bei der Anpassung eines 1-schichtigen neuronalen Netzwerks, das aus Neuronen besteht. Dies ergibt sich aus der Tatsache, dass Sie genau die gleiche Anpassung erhalten, wenn Sie zwei Neuronen auf einer bestimmten Ebene austauschen und dann die diesen Neuronen zugewiesenen Gewichte auf der nächsten Ebene austauschen.n ! n
quelle