Intuition für den Regularisierungsparameter in SVM

11

Wie ändert das Variieren des Regularisierungsparameters in einer SVM die Entscheidungsgrenze für einen nicht trennbaren Datensatz? Eine visuelle Antwort und / oder ein Kommentar zu den einschränkenden Verhaltensweisen (für große und kleine Regularisierung) wäre sehr hilfreich.

ASX
quelle

Antworten:

17

Der Regularisierungsparameter (Lambda) dient als ein Grad an Wichtigkeit, der Fehlklassifizierungen beigemessen wird. SVM stellt ein quadratisches Optimierungsproblem dar, bei dem versucht wird, den Abstand zwischen beiden Klassen zu maximieren und die Anzahl der Fehlklassifizierungen zu minimieren. Für nicht trennbare Probleme muss jedoch, um eine Lösung zu finden, die Fehlklassifizierungsbeschränkung gelockert werden, und dies erfolgt durch Einstellen der erwähnten "Regularisierung".

Intuitiv gesehen, wenn Lambda größer wird, sind die falsch klassifizierten Beispiele umso weniger zulässig (oder je höher der Preis, den die Verlustfunktion zahlt). Wenn dann Lambda dazu neigt, unendlich zu werden, tendiert die Lösung zum harten Rand (keine Fehlklassifizierung zulassen). Wenn Lambda gegen 0 tendiert (ohne 0 zu sein), sind die Fehlklassifizierungen umso mehr zulässig.

Es gibt definitiv einen Kompromiss zwischen diesen beiden und normalerweise kleineren Lambdas, aber nicht zu klein, verallgemeinern Sie gut. Nachfolgend finden Sie drei Beispiele für die lineare SVM-Klassifizierung (binär).

Lineare SVM Lambda = 0,1 Lineare SVM Lambda = 1 Geben Sie hier die Bildbeschreibung ein

Für nichtlineare Kernel-SVM ist die Idee ähnlich. In Anbetracht dessen besteht bei höheren Lambda-Werten eine höhere Wahrscheinlichkeit einer Überanpassung, während bei niedrigeren Lambda-Werten eine höhere Unteranpassungsmöglichkeit besteht.

Die folgenden Bilder zeigen das Verhalten des RBF-Kernels, wobei der Sigma-Parameter auf 1 festgelegt ist und Lambda = 0,01 und Lambda = 10 versucht werden

RBF Kernel SVM Lambda = 0,01 RBF Kernel SVM Lambda = 10

Sie können sagen, dass die erste Zahl, bei der das Lambda niedriger ist, "entspannter" ist als die zweite Zahl, bei der die Daten genauer angepasst werden sollen.

(Folien von Prof. Oriol Pujol. Universitat de Barcelona)

Javierfdr
quelle
Schöne Fotos! Hast du sie selbst erstellt? Wenn ja, können Sie vielleicht den Code zum Zeichnen freigeben?
Alexey Grigorev
schöne Grafik. In Bezug auf die letzten beiden => aus dem Text würde man implizit denken, dass das erste Bild das mit Lambda = 0,01 ist, aber nach meinem Verständnis (und um mit der Grafik am Anfang übereinzustimmen) ist dies das mit Lambda = 10. weil Dies ist eindeutig diejenige mit der geringsten Regularisierung (am meisten überpassend, am entspanntesten).
Wim 'titte' Thiels
^ das ist auch mein Verständnis. Der obere Teil der beiden Farbdiagramme zeigt deutlich mehr Konturen für die Form der Daten, sodass dies der Graph sein muss, bei dem der Rand der SVM-Gleichung bei höherem Lambda bevorzugt wurde. Der untere Teil der beiden Farbdiagramme zeigt eine entspanntere Klassifizierung der Daten (kleine blaue Gruppe im orangefarbenen Bereich), was bedeutet, dass die Randmaximierung nicht gegenüber der Minimierung des Fehlerbetrags bei der Klassifizierung bevorzugt wurde.
Brian Ambielli