Ich gehe durch den DeepAI-Kurs der Cousera (Woche 3, Video 1, "Überblick über neuronale Netze") und Andrew Ng erklärt, wie jede Schicht in einem neuronalen Netz nur eine andere logistische Regression darstellt, erklärt aber nicht, wie dies die Sache genauer macht.
Wie können Sie in einem 2-Schicht-Netzwerk die logistische Mehrfachberechnung genauer gestalten?
Antworten:
Wenn Sie logistische Aktivierungsfunktionen verwenden, ist die Funktion, die die Eingänge jeder Einheit mit ihren Ausgängen in Beziehung setzt, dieselbe wie bei der logistischen Regression. Dies ist jedoch nicht wirklich dasselbe wie bei jeder Einheit, die eine logistische Regression durchführt. Der Unterschied besteht darin, dass bei der logistischen Regression die Gewichte und die Verzerrung so gewählt werden, dass die Ausgabe am besten mit den vorgegebenen Zielwerten übereinstimmt (unter Verwendung des logarithmischen / entropieübergreifenden Verlusts). Im Gegensatz dazu senden versteckte Einheiten in einem neuronalen Netz ihre Ausgaben an nachgeschaltete Einheiten. Es gibt keine Zielausgabe für einzelne ausgeblendete Einheiten. Vielmehr werden die Gewichte und Vorspannungen ausgewählt, um eine objektive Funktion zu minimieren, die von der endgültigen Ausgabe des Netzwerks abhängt.
Anstatt eine logistische Regression durchzuführen, ist es möglicherweise sinnvoller, sich jede versteckte Einheit als Berechnung einer Koordinate in einem Merkmalsraum vorzustellen. Aus dieser Perspektive besteht der Zweck einer verborgenen Ebene darin, ihre Eingabe zu transformieren - der Eingabevektor wird auf einen Vektor von Aktivierungen verborgener Ebenen abgebildet. Sie können sich dies so vorstellen, dass Sie die Eingabe in einen Feature-Space mit einer Dimension abbilden, die jeder verborgenen Einheit entspricht.
Die Ausgabeschicht kann oft als Standardlernalgorithmus betrachtet werden, der in diesem Merkmalsraum arbeitet. Beispielsweise entspricht die Verwendung einer logistischen Ausgabeeinheit mit Kreuzentropieverlust in einer Klassifizierungsaufgabe der Durchführung einer logistischen Regression im Merkmalsbereich (oder einer multinomialen logistischen Regression, wenn Softmax-Ausgaben verwendet werden). In einer Regressionsaufgabe entspricht die Verwendung einer linearen Ausgabe mit quadratischem Fehler der Durchführung einer linearen Regression der kleinsten Quadrate im Merkmalsraum.
Das Trainieren des Netzwerks bedeutet das Erlernen der Feature-Space-Zuordnung und der Klassifizierungs- / Regressionsfunktion (im Feature-Space), die zusammen die beste Leistung liefern. Angenommen, nichtlineare verborgene Einheiten, eine Vergrößerung der Breite der verborgenen Ebene oder das Stapeln mehrerer verborgener Ebenen ermöglichen komplexere Zuordnungen des Merkmalsraums, wodurch komplexere Funktionen angepasst werden können.
quelle
Eine Möglichkeit, die Kraft der Nichtlinearität zu erkennen, besteht darin, den Satz der universellen Approximation zu beachten .
Obwohl es in der Praxis nicht sehr wichtig ist (es geht um die Fähigkeiten von Single-Layer-Netzwerken), sagt es Ihnen, dass Sie mit (beliebig langen) Summen von Sigmoiden im Prinzip jede kontinuierliche Funktion mit jedem gewünschten Niveau approximieren können. Wenn Sie die Fouriertheorie kennen oder sich an den Weierstraß-Näherungssatz erinnern, sollte das nicht überraschen.
quelle
Wenn im neuronalen Netzwerk verborgene Schichten vorhanden sind, fügen wir nichtlineare Merkmale hinzu. Bitte überprüfen Sie meine Antwort hier, um einen Sinn zu bekommen.
Was macht neuronale Netze zu einem nichtlinearen Klassifikationsmodell?
Insbesondere ist eine verschachtelte Sigmoidfunktion "leistungsfähiger" als eine lineare Transformation von Originalmerkmalen und einer Sigmoidfunktion (logistische Regression).
Hier ist ein numerisches Beispiel, um auf die Kommentare von OP einzugehen.
quelle
In der logistischen Standardregression haben wir 1 Ausgabe in der letzten Ebene. Mit einem einzigen neuronalen Hidden-Layer-Netzwerk können wir jedoch mehrere Zwischenwerte haben, von denen jeder als Ergebnis eines anderen logistischen Regressionsmodells betrachtet werden kann, dh wir führen nicht immer wieder dieselbe logistische Regression durch. Es ist dann kein großer Sprung zu der Annahme, dass die Kombination dieser Merkmale aussagekräftiger ist als das Standardmodell der logistischen Regression (und dies wurde auch in der Praxis und in der Theorie gezeigt ).
quelle