Support Vector Machines (SVMs) sind die Nulltemperaturgrenze der logistischen Regression?

8

Ich hatte kürzlich eine kurze Diskussion mit einem sachkundigen Freund, der erwähnte, dass SVMs die Nulltemperaturgrenze der logistischen Regression sind. Das Grundprinzip umfasste marginale Polytope und Fenchel-Dualität. Ich konnte nicht folgen.

Ist diese Aussage über SVMs als Nulltemperaturgrenze der logistischen Regression wahr? Und wenn ja, kann jemand das Argument beschreiben?

ted
quelle
Beide sind verwandt, aber ich war es gewohnt, in der logistischen Regression besser zu denken, um die Wahrscheinlichkeit jeder Klasse zu ermitteln, während SVMs besser entscheiden können. Die logistische Regression passt also gut zur Bayes'schen Folgerung und bietet natürlich ein gewisses Maß an Vertrauen für jede Klassifizierung. SVMs hingegen würden besser skalieren, da nur die Unterstützungsvektoren die Klassifizierung beeinflussen. Das sind meine fünf Cent.
Ailton Andrade de Oliveira

Antworten:

5

Dies gilt für SVM mit hartem Rand und linear trennbare Daten.

Eine intuitive Skizze: Der Verlust für jeden Datenpunkt in der logistischen Regression stirbt fast als exponentielle Abklingkurve ab, wenn Sie sich weiter von der Entscheidungsgrenze entfernen (natürlich in die richtige Richtung). Dieser exponentielle Abfall bedeutet, dass die Punkte, die der Grenze am nächsten liegen, viel mehr Verluste verursachen. Wenn die Temperatur auf 0 abfällt, dominieren die Punkte, die der Grenze am nächsten liegen, den Verlust vollständig, und der Verlust wird dadurch bestimmt, wie nahe die nächsten Punkte genau sind.

Die binäre logistische Regression hat den Kreuzentropieverlust: wobei die Bezeichnung und die vorhergesagte Wahrscheinlichkeit in .y p ( 0 , 1 )- -yLogp- -(1- -y)Log(1- -p)yp(0,1)

Typischerweise ist wobei σ die Sigmoidfunktion ist. Aufgrund des in diesem Artikel vorgestellten Temperaturparameters vermute ich, dass sich die Temperatur auf eine Modifikation der Formulierung bezieht: p = σ ( w T xp=σ(wT.x+b)σ, wobeiτdie Temperatur ist und ich der Einfachheit halber den Bias-Term fallen gelassen habe.p=σ(wT.xτ)τ

Betrachtet man nur den ersten Term des Verlustes, . Nehmen Sie allewTx>0 an, denn alles andere würde bedeuten, dassxauf der falschen Seite der Entscheidungsgrenze liegt und einen unendlichen Verlust alsτ0 verursacht. Da der Exponentialterm im Grenzbereich sehr klein wird, verwenden wir die Taylor-Expansion erster Ordnung fürlog(1+z), um-ylogpyexp(- w T x)zu schreiben- -yLogp=yLog(1+exp(- -wT.xτ))wT.x>0xτ0Log(1+z)- -yLogpyexp(- -wT.xτ)

Bisher haben wir nur den Verlust für einen einzelnen Datenpunkt verwendet, aber der tatsächliche Verlust ist . Betrachten Sie nur positive Bezeichnungen (yi=1). Dann wird diese Summe von dem Term dominiert, bei demwTxiam kleinsten ist (am nächsten an der Entscheidungsgrenze).ichyichexp(- -wT.xichτ)yich=1wT.xich

Dies ist zu sehen, weil das Verhältnis zwischen dem Term und dem j- Term exp ( - w T x i / τ ) ist.ichjexp(- -wT.xich/.τ)exp(- -wT.xj/.τ)=exp(wT.xj- -wT.xichτ)τ0wT.xich

Ein symmetrisches Argument kann für den zweiten Term im Verlust verwendet werden.

Daher wird der Verlust des logistischen Regressionsproblems bei einem Temperaturanstieg auf 0 minimiert, indem der Mindestabstand zur Entscheidungsgrenze maximiert wird.

Shimao
quelle