SVM-Regression verstehen: objektive Funktion und „Ebenheit“

SVMs zur Klassifizierung machen für mich intuitiv Sinn: Ich verstehe, wie minimierend $||\theta||^2$ ergibt den maximalen Spielraum. Ich verstehe dieses Ziel jedoch nicht im Kontext der Regression. Verschiedene Texte ( hier und hier ) beschreiben dies als Maximierung der "Ebenheit". Warum sollten wir das tun wollen? Was entspricht in der Regression dem Begriff "Marge"?

Hier sind ein paar versuchte Antworten, aber keine, die wirklich zu meinem Verständnis beigetragen hat.

regression svm Yang
quelle

Ich bin nicht wirklich mit der SVM-Theorie vertraut, aber die "Ebenheit" in der Kernel-Maschinen-Diskussion, auf die Sie verweisen, scheint zu lauten: "hat kleine zweite Ableitung" (denken Sie an die typische Motivation für Spline-Glättungsmodelle).

Conjugateprior

Antworten:

Eine Art und Weise, wie ich über die Ebenheit nachdenke, besteht darin, dass meine Vorhersagen weniger empfindlich auf Störungen in den Merkmalen reagieren. Das heißt, wenn ich ein Modell der Form konstruiere bei dem mein Merkmalsvektor bereits normalisiert wurde,bedeutenkleinere Werte in dass mein Modell weniger empfindlich für Messfehler / zufällige Erschütterungen / Nicht-Fehler ist -Stationarität der Merkmale, . Bei zwei Modellen (dhzwei möglichen Werten von ), die die Daten gleich gut erklären, bevorzuge ich das flachere.

y = x^{⊤} θ + ϵ,

$y = x^\top \theta + \epsilon,$

x

$x$

θ

$\theta$

x

$x$

θ

$\theta$

Sie können sich die Ridge-Regression auch so vorstellen, als würde sie dasselbe ohne den Kernel-Trick oder die SVM-Regressionsformulierung "tube" ausführen.

edit : Als Antwort auf @ Yangs Kommentare noch eine Erklärung:

Betrachten Sie den linearen Fall: . Angenommen, das wird aus einer Verteilung gezogen, die von unabhängig ist . Durch die Punktproduktidentität haben wir $y = x^\top \theta + \epsilon$ $x$ $\theta$ , wobei der Winkel zwischen und , der wahrscheinlich unter einer sphärisch gleichmäßigen Verteilung verteilt ist. Beachten Sie nun: die "Streuung" (z. B.die Standardabweichung der Stichprobe) unserer Vorhersagen von $y = ||x|| ||\theta|| \cos\psi + \epsilon$ $\psi$ $\theta$ $x$ ist proportional zuJames Stein Schätzer. $y$ . Um mit den latenten, geräuschlosen Versionen unserer Beobachtungen eine gute MSE zu erzielen, möchten wir diese. vgl $||\theta||$ $||\theta||$
Betrachten Sie den linearen Fall mit vielen Merkmalen. Betrachten Sie die Modelle und $y = x^\top \theta_1 + \epsilon$ . Wenn mehr Nullelemente als , aber ungefähr dieselbe Aussagekraft hat, würden wir es vorziehen, basierend auf Occams Rasiermesser, da es von weniger Variablen abhängt (dhwir haben die Merkmalsauswahl durch Setzen einiger Elemente durchgeführt) von bis Null). Flachheit ist eine Art kontinuierliche Version dieses Arguments. Wenn jeder Rand derEinheit Standardabweichung hat, und $y = x^\top \theta_2 + \epsilon$ $\theta_1$ $\theta_2$ $\theta_1$ $x$ hatzB2 Elemente, die 10 sind, und die restlichen $\theta_1$ $n-2$ sind kleiner als 0,0001, abhängig von Ihrer Rauschtoleranz. Dies bedeutet effektiv, die beiden Merkmale auszuwählen und die verbleibenden auf Null zu setzen .
Wenn der Kernel-Trick angewendet wird, führen Sie eine lineare Regression in einem hochdimensionalen (manchmal unendlich) Vektorraum durch. Jedes Element von entspricht jetzt einer Ihrer Stichproben , nicht Ihren Merkmalen . Wenn Elemente von nicht Null sind und die verbleibenden Null sind, werden die Merkmale, die den Nicht-Null-Elementen von entsprechen, als "Unterstützungsvektoren" bezeichnet. Um Ihr SVM-Modell beispielsweise auf einer Festplatte zu speichern, müssen Sie nur diese Merkmalsvektoren behalten , und Sie können den Rest davon wegwerfen. Jetzt ist Flachheit wirklich wichtig, denn $\theta$ $k$ $\theta$ $m-k$ $k$ $\theta$ $k$ $k$ kleine reduziert Speicherung und Übertragung, usw. , Anforderungen. Auch für Rauschen auf Ihre Toleranz abhängig, können Sie wahrscheinlich Null aus allen Elementen von aber die größten, für einige , nach einer SVM Regression durchführen. Die Ebenheit entspricht hier der Sparsamkeit in Bezug auf die Anzahl der Trägervektoren. $\theta$ $l$ $l$

shabbychef
quelle

Das ist also im Grunde genommen eine Regression mit einer 'Röhren'-Verlustfunktion (0 Strafe für Punkte +/- Epsilon der Vorhersage) anstelle der quadratischen Verlustfunktion von OLS?

Conjugateprior

@Conjugate Prior: ja, in der Regel Kernel Regression minimiert eine 'epsilon-insenstive Verlust' -Funktion, die Sie als denken können

szB kernelsvm.tripod.com oder einer der Papiere von Smola et al .

f (x) = (| x | - ϵ)^{+}

$f(x) = (|x| - \epsilon)^+$

Shabbychef

@ shabbychef Danke. Ich habe mich immer gefragt, was da los ist.

Conjugateprior

@Conjugate Prior: Ich denke nicht, dass dies tatsächlich die gewünschte Verlustfunktion ist, aber die Mathematik klappt gut, also haben sie damit angefangen. Zumindest ist das mein Verdacht.

Shabbychef

@shabbychef: Ich bin immer noch verloren. Betrachten Sie den eindimensionalen Fall:

. Alles, was Sie

minimieren, ist, dass Sie eine horizontalere Linie erhalten. Es scheint nichts mit der zweiten Ableitung zu tun zu haben, auf die Sie sich wohl beziehen ("Glätte"). Und wenn meine Beispielpunkte (0,0) und (1,1e9) sind, warum würde ich eine flachere Linie bevorzugen? Dh, sagen meine

Toleranz ist 1 - warum würde ich es vorziehen , die flachere Linie von (0,0) bis (1,1e9-1) (

) anstelle der Linie , die durch (1,1e9) (

) oder die Linie durch (1,1e9 + 1) (

y = θ x

$y = \theta x$

θ

$\theta$

ϵ

$\epsilon$

θ = 1 e 9 - 1

$\theta=1e9-1$

θ = 1 e 9

$\theta=1e9$

θ = 1 e 9 + 1

$\theta=1e9+1$

Yang

shabbychef gab eine sehr klare erklärung aus der sicht der modellkomplexität . Ich werde versuchen, dieses Problem von einem anderen Standpunkt aus zu verstehen, falls es jemandem helfen könnte.

Grundsätzlich wollen wir die Marge in SVC maximieren. Dies ist auch in SVR der Fall, während wir den Vorhersagefehler zur besseren Verallgemeinerung in einer definierten Genauigkeit maximieren möchten . Wenn wir hier den Vorhersagefehler minimieren anstatt zu maximieren, ist es wahrscheinlicher, dass das Vorhersageergebnis für unbekannte Daten überpasst wird. Denken wir an den eindimensionalen Fall "Maximieren des Vorhersagefehlers". $e$

$(x_i,y_i)$ $y=\omega x+b$ $e$ $e$

\frac{| ω x_{i} - y_{i} + b |}{\sqrt{ω^{2} + 1}}

$\frac{\left|\omega x_i-y_i+b\right|}{\sqrt {\omega^2+1}}$

Right now the numerator is limited to $e$ . To maximize the distance, what we try to do is to minimize $\omega$ .

Anyone can easily extend the one-dimensional case to N-dimensional case as the distance equation will always be Euclidean distance.

Additionally, we may have a review on the optimization problem in SVR for the comparison [1].

min \frac{1}{2} {| | ω | |}^{2}

$\min \frac{1}{2} {\left| \left| \omega \right| \right|}^2$

s . t . {\begin{cases} y_{i} - < ω, x_{i} > - b \leq e \\ < ω, x_{i} > + b - y_{i} \geq e \end{cases}

$s.t. \begin{cases}y_i-<\omega,x_i>-b \leq e\\<\omega,x_i>+b-y_i \geq e\end{cases}$

Thanks.

[1] Smola, A., and B. Schölkopf. A tutorial on support vector regression. Statistics and Computing, Vol. 14, No. 3, Aug. 2004, pp. 199–222.

oloopy
quelle

At least, I don't think minimizing $\theta$ has anything to do with the concept margin as in a SVM classification setting. It serves for a totally different goal that is well explained by the above two posts, i.e., reducing model complexity and avoiding overfitting.

lynnjohn
quelle