Kurz gesagt: Die Maximierung des Spielraums kann allgemeiner als Regularisierung der Lösung durch Minimierung von (was im Wesentlichen die Modellkomplexität minimiert) angesehen werden. Dies erfolgt sowohl bei der Klassifizierung als auch bei der Regression. Aber im Fall der Klassifizierung ist diese Minimierung unter der Bedingung erfolgen , dass alle Beispiele klassifizieren sind korrekt und im Fall der Regression unter der Bedingung , dass der Wert allen Beispiele abweicht weniger als die erforderliche Genauigkeit von für die Regression .y ϵ f ( x )wyϵf( x )
Um zu verstehen, wie Sie von der Klassifikation zur Regression übergehen, ist es hilfreich zu sehen, wie in beiden Fällen dieselbe SVM-Theorie angewendet wird, um das Problem als konvexes Optimierungsproblem zu formulieren. Ich werde versuchen, beide nebeneinander zu stellen.
(Ich werde lockere Variablen ignorieren, die Fehlklassifizierungen und Abweichungen über der Genauigkeit zulassen. )ϵ
Einstufung
In diesem Fall besteht das Ziel darin, eine Funktion wobei für positive Beispiele und für negative Beispiele gilt. Unter diesen Bedingungen wollen wir den Spielraum (Abstand zwischen den beiden roten Balken) maximieren, was nichts anderes ist, als die Ableitung von minimieren .f ( x ) ≥ 1 f ( x ) ≤ - 1 f ' = wf( x ) = w x + bf( x ) ≥ 1f( X ) ≤ - 1f′= w
Die Intuition hinter dem Maximieren des Spielraums ist, dass dies uns eine eindeutige Lösung für das Problem des Findens von (dh wir verwerfen zum Beispiel die blaue Linie) und dass diese Lösung unter diesen Bedingungen die allgemeinste ist, dh sie wirkt als Regularisierung . Dies kann so gesehen werden, dass um die Entscheidungsgrenze (wo sich rote und schwarze Linien kreuzen) die Klassifizierungsunsicherheit am größten ist und die Wahl des niedrigsten Werts für in diesem Bereich die allgemeinste Lösung ergibt.f ( x )f( x )f( x )
Die Datenpunkte an den 2 roten Balken sind in diesem Fall die Stützvektoren, sie entsprechen den Nicht-Null-Lagrange-Multiplikatoren des Gleichheitsteils der Ungleichungsbedingungen undf ( x ) ≤ - 1f( x ) ≥ 1f( X ) ≤ - 1
Regression
In diesem Fall besteht das Ziel darin, eine Funktion (rote Linie) unter der Bedingung zu finden, dass innerhalb einer erforderlichen Genauigkeit vom Wert (schwarze Balken) von liegt jeder Datenpunkt, dh wobei der Abstand zwischen der roten und der grauen Linie ist. Unter dieser Bedingung wollen wir aus Gründen der Regularisierung wieder minimieren und als Ergebnis des konvexen Optimierungsproblems eine eindeutige Lösung erhalten. Man kann sehen, wie das Minimieren von in einem allgemeineren Fall als der Extremwert von resultiertf( x ) = w x + bf( x )ϵy( x )| y( x ) - f(x ) | ≤ ϵe p s i l o nf′( x ) = www = 0 würde bedeuten, dass überhaupt keine funktionale Beziehung besteht, was das allgemeinste Ergebnis ist, das man aus den Daten erhalten kann.
Die Datenpunkte an den 2 roten Balken sind in diesem Fall die Stützvektoren, sie entsprechen den Nicht-Null-Lagrange-Multiplikatoren des Gleichheitsteils der Ungleichungsbedingung .| y- f( x ) | ≤ ϵ
Fazit
Beide Fälle führen zu folgendem Problem:
min 12w2
Unter der Bedingung, dass:
- Alle Beispiele sind korrekt klassifiziert (Klassifizierung)
- Der Wert aller Beispiele weicht weniger als von . (Regression)yϵf( x )