Was ist die Verlustfunktion von Hard Margin SVM?

23

1max(0,1-yich(wxich+b))w2max(0,1-yi(wxi+b))

12w2+Cichmax(0,1-yich(wxich+b))
w2max(0,1-yich(wxich+b))

Bei SVM mit festem Rand ist die gesamte Zielfunktion jedoch nur

12w2
Bedeutet dies, dass SVM mit festem Rand nur einen Regularizer ohne Verlustfunktion minimiert? Das hört sich sehr seltsam an.

Nun, wenn 12w2 in diesem Fall die Verlustfunktion ist, können wir es quadratische Verlustfunktion nennen? Wenn ja, warum wird die Verlustfunktion von SVM mit hartem Rand zum Regularisierer in SVM mit weichem Rand und ändert sich vom quadratischen Verlust zum Gelenkverlust?

Roun
quelle
Für das, was ich verstehe, bedeutet harter Rand, dass Sie keine Daten in Ihrem Rand akzeptieren. Infolgedessen gibt max (0, Berechnung) immer 0 zurück.
fxm

Antworten:

26

Der Scharnierverlustterm ichmax(0,1-yich(wxich+b)) im SVM mit weichem Rand bestraft Fehlklassifizierungen . In Hard Margin SVM gibt es per Definition keine Fehlklassifizierungen.

Dies bedeutet in der Tat, dass SVM mit festem Rand versucht, \ | \ mathbf {w} \ | ^ 2 zu minimieren w2. Aufgrund der Formulierung des SVM-Problems beträgt der Spielraum 2/w. Das Minimieren der Norm von w daher geometrisch dem Maximieren des Randes. Genau das, was wir wollen!

Die Regularisierung ist eine Technik, um eine Überanpassung zu vermeiden, indem große Koeffizienten im Lösungsvektor benachteiligt werden. In Hard Margin ist SVM sowohl die Verlustfunktion als auch ein Regularisierer.w2L2

In Soft-Margin-SVM verhält sich der Scharnierverlust-Term ebenfalls wie ein Regularisierer, jedoch auf die Slack-Variablen anstelle von und in anstelle von . Regularisierung führt zu Sparsity, weshalb Standard-SVM in Bezug auf Support-Vektoren spärlich ist (im Gegensatz zu SVM mit kleinsten Quadraten).wL1L2L1

Marc Claesen
quelle
Können Sie die letzten beiden Absätze mit etwas mehr Details und Mathematik erklären?
Nein
0

Zur Verdeutlichung wird mit der Einschränkung minimiert, dass die Punkte linear trennbar sind (dh man kann eine Hyperebene zeichnen, die die beiden perfekt trennt). Mit anderen Worten, die einzigen zulässigen Werte von w, die wir als Lösungen betrachten können, sind diejenigen, die die beiden Punktmengen trennen.

12w2

Nun wird angenommen, dass die SVM mit harten Rändern leichter "überpasst" als mit weichen Rändern. Dies ist leichter vorstellbar mit einer RBF-SVM mit einem ausreichenden , der (übermäßig) komplizierte und (möglicherweise) übermäßige Entscheidungsgrenzen erzeugen kann. Je härter der Rand (der ungenau mit einem höheren "C" emuliert wird), desto schwieriger wird die Suche, Entscheidungsgrenzen zu finden, die die beiden Punktmengen perfekt klassifizieren.γ

Wenn wir zum "weichen Rand" übergehen, werden die Beschränkungen gelockert und durch die Einführung des "Durchhangs" durch eine Beschränkung ersetzt. Diese Durchhangvariable wird mit einem "Scharnierverlust" -Term definiert. Nach der Vereinfachung gelangt man wie bei einem Verlustbegriff, den jeder mit SVMs assoziiert, zum Scharnier + l2. FWIW, ich mag es, SVMs eher als Optimierungsproblem anstatt als allgegenwärtiges Problem "folge den Verläufen" zu betrachten.

Ishan Patel
quelle