Die optimale Hyperebene in SVM ist definiert als:
wobei den Schwellenwert darstellt. Wenn wir eine Abbildung ϕ haben, die den Eingaberaum auf einen Raum Z abbildet , können wir SVM in dem Raum Z definieren , in dem die optimale Hiperplane ist:
Wir können jedoch immer Mapping definieren , so dass φ 0 ( x ) = 1 , ∀ x , und dann wird der optimale hiperplane definiert werden als w ⋅ φ ( x ) = 0.
Fragen:
Warum viele Papiere verwenden , wenn sie bereits Mapping φ und Schätzungsparameter w und theshold b separatelly?
Gibt es ein Problem, SVM als zu definieren ? | w | | 2 s . t . y n w ⋅ φ ( x n ) ≥ 1 , ∀ n und schätzt nur Parametervektor w , unter der Annahme , dass wir definieren φ 0 ( x ) = 1 , ∀ x ?
Wenn die Definition von SVM aus Frage 2 möglich ist, haben wir und der Schwellenwert ist einfach b = w 0 , was wir nicht separat behandeln werden. Wir werden also niemals eine Formel wie b = t n - w ⋅ ϕ (zu schätzenbvon einem SupportVektor x n . Richtig?
Antworten:
Warum ist Voreingenommenheit wichtig?
Der Bias-Termb ist in der Tat ein spezieller Parameter in SVM. Ohne sie durchläuft der Klassifikator immer den Ursprung. SVM gibt Ihnen also nicht die trennende Hyperebene mit dem maximalen Rand, wenn sie nicht zufällig durch den Ursprung verläuft, es sei denn, Sie haben einen Bias-Term.
Unten finden Sie eine Visualisierung des Bias-Problems. Links (rechts) wird eine SVM angezeigt, die mit (ohne) Bias-Term trainiert wurde. Obwohl beide SVMs mit denselben Daten trainiert werden , sehen sie sehr unterschiedlich aus.
Warum sollte die Verzerrung separat behandelt werden?
Wie Ben DAI betonte, sollte der Bias-Term wegen der Regularisierung separat behandelt werden. SVM maximiert die Randgröße von 1b (oder21||w||2 je nachdem, wie Sie es definieren).2||w||2
Das Maximieren des Spielraums entspricht dem Minimieren von . Dies wird auch als Regularisierungsterm bezeichnet und kann als Maß für die Komplexität des Klassifikators interpretiert werden. Sie möchten den Bias-Term jedoch nicht regulieren, da durch die Bias die Klassifizierungswerte nach oben oder unten verschoben werden||w||2 für alle Datenpunkte um den gleichen Betrag nach verschoben werden . Insbesondere ändert die Vorspannung weder die Form des Klassifikators noch seine Randgröße. Deshalb, ...
In der Praxis ist es jedoch einfacher, die Vorspannung einfach in den Merkmalsvektor zu verschieben, als sie als Sonderfall behandeln zu müssen.
Hinweis: Wenn Sie die Vorspannung auf die Merkmalsfunktion verschieben, ist es am besten, diese Dimension des Merkmalsvektors auf eine große Zahl , z. B. ϕ 0 ( x ) = 10 , um die Nebenwirkungen der Regularisierung der Vorspannung zu minimieren.ϕ0(x)=10
quelle
Manchmal lassen die Leute das Abfangen in SVM einfach weg, aber ich denke, der Grund, warum wir das Abfangen vielleicht bestrafen können, um es wegzulassen. dh
Wenn wir jedoch den Achsenabschnitt in die Gewichte einfügen, unterscheidet sich die Zielfunktion geringfügig von der ursprünglichen. Deshalb nennen wir "bestrafen".
quelle
Zusätzlich zu den oben genannten Gründen die Entfernung eines Punktesx zu einer durch Steigung definierten Hyperebene θ und abfangen b ist | θT.x + b || | θ | |
Auf diese Weise wird das Konzept der Marge in SVM verschoben. Wenn Sie das ändernθ den Intercept-Term einschließen b , die Norm der θ will be affected by the size of the intercept, which will cause the SVM to optimize towards a small intercept, which does not make sense in many cases.
quelle