Angenommen, ich habe ein einfaches einschichtiges neuronales Netzwerk mit n Eingängen und einem einzelnen Ausgang (binäre Klassifizierungsaufgabe). Wenn ich die Aktivierungsfunktion im Ausgabeknoten als Sigmoidfunktion einstelle, ist das Ergebnis ein Klassifikator für die logistische Regression.
Wenn ich in demselben Szenario die Ausgangsaktivierung auf ReLU (gleichgerichtete Lineareinheit) ändere, ist die resultierende Struktur dann mit einer SVM identisch oder dieser ähnlich?
Wenn nicht warum?
neural-networks
svm
ANZEIGE
quelle
quelle
Antworten:
Was Sie vielleicht an ReLU denken lässt, ist der Scharnierverlust von SVMs, aber der Verlust schränkt die Ausgangsaktivierungsfunktion nicht ein, nicht negativ zu sein (ReLU).E=max(1−ty,0)
Damit der Netzwerkverlust dieselbe Form wie bei SVMs hat, können wir einfach alle nichtlinearen Aktivierungsfunktionen von der Ausgabeschicht entfernen und den Scharnierverlust für die Backpropagation verwenden.
Wenn wir außerdem den Gelenkverlust durch (was wie eine glatte Version des Scharnierverlusts aussieht), führen wir eine logistische Regression als typische Sigmoid + Cross-Entropy-Netzwerke durch. Man kann sich vorstellen, dass die Sigmoidfunktion von der Ausgangsschicht zum Verlust verschoben wird.E=ln(1+exp(−ty))
In Bezug auf Verlustfunktionen sind SVMs und logistische Regression ziemlich nahe beieinander, obwohl SVMs einen ganz anderen Algorithmus für Training und Inferenz verwenden, der auf Unterstützungsvektoren basiert.
In Abschnitt 7.1.2 des Buches Mustererkennung und maschinelles Lernen wird die Beziehung zwischen SVM und logistischer Regression ausführlich diskutiert .
quelle