Einschichtiges NeuralNetwork mit ReLU-Aktivierung gleich SVM?

10

Angenommen, ich habe ein einfaches einschichtiges neuronales Netzwerk mit n Eingängen und einem einzelnen Ausgang (binäre Klassifizierungsaufgabe). Wenn ich die Aktivierungsfunktion im Ausgabeknoten als Sigmoidfunktion einstelle, ist das Ergebnis ein Klassifikator für die logistische Regression.

Wenn ich in demselben Szenario die Ausgangsaktivierung auf ReLU (gleichgerichtete Lineareinheit) ändere, ist die resultierende Struktur dann mit einer SVM identisch oder dieser ähnlich?

Wenn nicht warum?

ANZEIGE
quelle
Haben Sie eine Hypothese, warum dies der Fall sein könnte? Der Grund, warum ein einzelnes Perzeptron = logistisch ist, liegt genau in der Aktivierung - sie sind im Wesentlichen dasselbe Modell, mathematisch (obwohl möglicherweise anders trainiert) - linearen Gewichten + einem Sigmoid, das auf die Matrixmultiplikation angewendet wird. SVMs arbeiten ganz anders - sie suchen die beste Linie, um die Daten zu trennen - sie sind geometrischer als "gewichtig" / "matrixartig". Für mich gibt es nichts an ReLUs, was mich zum Nachdenken bringen könnte = ah, sie sind mit einer SVM identisch. (logistische und lineare svm tendieren jedoch dazu, sehr ähnlich zu
funktionieren
Das Max-Margin-Ziel eines SVM und die Relu-Aktivierungsfunktion sehen gleich aus. Daher die Frage.
AD
"SVMs arbeiten ganz anders - sie suchen die beste Linie, um die Daten zu trennen - sie sind geometrischer als" gewichtig "/" matrixartig ". Das ist ein wenig handgewellt - ALLE linearen Klassifikatoren suchen die beste Linie, um die Daten einschließlich der logistischen Regression zu trennen und Perzeptron.
AD

Antworten:

11

Was Sie vielleicht an ReLU denken lässt, ist der Scharnierverlust von SVMs, aber der Verlust schränkt die Ausgangsaktivierungsfunktion nicht ein, nicht negativ zu sein (ReLU).E=max(1ty,0)

Damit der Netzwerkverlust dieselbe Form wie bei SVMs hat, können wir einfach alle nichtlinearen Aktivierungsfunktionen von der Ausgabeschicht entfernen und den Scharnierverlust für die Backpropagation verwenden.

Wenn wir außerdem den Gelenkverlust durch (was wie eine glatte Version des Scharnierverlusts aussieht), führen wir eine logistische Regression als typische Sigmoid + Cross-Entropy-Netzwerke durch. Man kann sich vorstellen, dass die Sigmoidfunktion von der Ausgangsschicht zum Verlust verschoben wird.E=ln(1+exp(ty))

In Bezug auf Verlustfunktionen sind SVMs und logistische Regression ziemlich nahe beieinander, obwohl SVMs einen ganz anderen Algorithmus für Training und Inferenz verwenden, der auf Unterstützungsvektoren basiert.

In Abschnitt 7.1.2 des Buches Mustererkennung und maschinelles Lernen wird die Beziehung zwischen SVM und logistischer Regression ausführlich diskutiert .

Geben Sie hier die Bildbeschreibung ein

dontloo
quelle
Vielen Dank für den Hinweis auf das Buch. Ich habe das Gefühl, dass der eigentliche Unterschied neben den Aktivierungsfunktionen in den verwendeten Optimierungsalgorithmen liegt. Für LR können wir einen einfachen, nicht eingeschränkten Gradientenabstieg verwenden, während wir in SVM normalerweise eine eingeschränkte Optimierung lösen.
AD