1‖w‖2max(0,1-yi(w⊺xi+b))
Bei SVM mit festem Rand ist die gesamte Zielfunktion jedoch nur
Bedeutet dies, dass SVM mit festem Rand nur einen Regularizer ohne Verlustfunktion minimiert? Das hört sich sehr seltsam an.
Nun, wenn in diesem Fall die Verlustfunktion ist, können wir es quadratische Verlustfunktion nennen? Wenn ja, warum wird die Verlustfunktion von SVM mit hartem Rand zum Regularisierer in SVM mit weichem Rand und ändert sich vom quadratischen Verlust zum Gelenkverlust?
svm
loss-functions
Roun
quelle
quelle
Antworten:
Der Scharnierverlustterm∑ichmax ( 0 , 1 - yich( w⊺xich+ b ) ) im SVM mit weichem Rand bestraft Fehlklassifizierungen . In Hard Margin SVM gibt es per Definition keine Fehlklassifizierungen.
Dies bedeutet in der Tat, dass SVM mit festem Rand versucht, \ | \ mathbf {w} \ | ^ 2 zu minimieren∥ w ∥2 . Aufgrund der Formulierung des SVM-Problems beträgt der Spielraum 2 / ∥ w ∥ . Das Minimieren der Norm von w daher geometrisch dem Maximieren des Randes. Genau das, was wir wollen!
Die Regularisierung ist eine Technik, um eine Überanpassung zu vermeiden, indem große Koeffizienten im Lösungsvektor benachteiligt werden. In Hard Margin ist SVM sowohl die Verlustfunktion als auch ein Regularisierer.∥ w ∥2 L2
In Soft-Margin-SVM verhält sich der Scharnierverlust-Term ebenfalls wie ein Regularisierer, jedoch auf die Slack-Variablen anstelle von und in anstelle von . Regularisierung führt zu Sparsity, weshalb Standard-SVM in Bezug auf Support-Vektoren spärlich ist (im Gegensatz zu SVM mit kleinsten Quadraten).w L1 L2 L1
quelle
Zur Verdeutlichung wird mit der Einschränkung minimiert, dass die Punkte linear trennbar sind (dh man kann eine Hyperebene zeichnen, die die beiden perfekt trennt). Mit anderen Worten, die einzigen zulässigen Werte von w, die wir als Lösungen betrachten können, sind diejenigen, die die beiden Punktmengen trennen.12∥ w ∥2
Nun wird angenommen, dass die SVM mit harten Rändern leichter "überpasst" als mit weichen Rändern. Dies ist leichter vorstellbar mit einer RBF-SVM mit einem ausreichenden , der (übermäßig) komplizierte und (möglicherweise) übermäßige Entscheidungsgrenzen erzeugen kann. Je härter der Rand (der ungenau mit einem höheren "C" emuliert wird), desto schwieriger wird die Suche, Entscheidungsgrenzen zu finden, die die beiden Punktmengen perfekt klassifizieren.γ
Wenn wir zum "weichen Rand" übergehen, werden die Beschränkungen gelockert und durch die Einführung des "Durchhangs" durch eine Beschränkung ersetzt. Diese Durchhangvariable wird mit einem "Scharnierverlust" -Term definiert. Nach der Vereinfachung gelangt man wie bei einem Verlustbegriff, den jeder mit SVMs assoziiert, zum Scharnier + l2. FWIW, ich mag es, SVMs eher als Optimierungsproblem anstatt als allgegenwärtiges Problem "folge den Verläufen" zu betrachten.
quelle