SVMs zur Klassifizierung machen für mich intuitiv Sinn: Ich verstehe, wie minimierend ergibt den maximalen Spielraum. Ich verstehe dieses Ziel jedoch nicht im Kontext der Regression. Verschiedene Texte ( hier und hier ) beschreiben dies als Maximierung der "Ebenheit". Warum sollten wir das tun wollen? Was entspricht in der Regression dem Begriff "Marge"?
Hier sind ein paar versuchte Antworten, aber keine, die wirklich zu meinem Verständnis beigetragen hat.
regression
svm
Yang
quelle
quelle
Antworten:
Eine Art und Weise, wie ich über die Ebenheit nachdenke, besteht darin, dass meine Vorhersagen weniger empfindlich auf Störungen in den Merkmalen reagieren. Das heißt, wenn ich ein Modell der Form y = konstruiere bei dem mein Merkmalsvektor x bereits normalisiert wurde,bedeutenkleinere Werte in θ, dass mein Modell weniger empfindlich für Messfehler / zufällige Erschütterungen / Nicht-Fehler ist -Stationarität der Merkmale, x . Bei zwei Modellen (dhzwei möglichen Werten von θ ), die die Daten gleich gut erklären, bevorzuge ich das flachere.
Sie können sich die Ridge-Regression auch so vorstellen, als würde sie dasselbe ohne den Kernel-Trick oder die SVM-Regressionsformulierung "tube" ausführen.
edit : Als Antwort auf @ Yangs Kommentare noch eine Erklärung:
quelle
shabbychef gab eine sehr klare erklärung aus der sicht der modellkomplexität . Ich werde versuchen, dieses Problem von einem anderen Standpunkt aus zu verstehen, falls es jemandem helfen könnte.
Grundsätzlich wollen wir die Marge in SVC maximieren. Dies ist auch in SVR der Fall, während wir den Vorhersagefehler zur besseren Verallgemeinerung in einer definierten Genauigkeit maximieren möchten . Wenn wir hier den Vorhersagefehler minimieren anstatt zu maximieren, ist es wahrscheinlicher, dass das Vorhersageergebnis für unbekannte Daten überpasst wird. Denken wir an den eindimensionalen Fall "Maximieren des Vorhersagefehlers".e
Right now the numerator is limited toe . To maximize the distance, what we try to do is to minimize ω .
Anyone can easily extend the one-dimensional case to N-dimensional case as the distance equation will always be Euclidean distance.
Additionally, we may have a review on the optimization problem in SVR for the comparison [1].
Thanks.
[1] Smola, A., and B. Schölkopf. A tutorial on support vector regression. Statistics and Computing, Vol. 14, No. 3, Aug. 2004, pp. 199–222.
quelle
At least, I don't think minimizingθ has anything to do with the concept margin as in a SVM classification setting.
It serves for a totally different goal that is well explained by the above two posts, i.e., reducing model complexity and avoiding overfitting.
quelle