Warum ist es falsch, SVM als Klassifizierungswahrscheinlichkeiten zu interpretieren?

Mein Verständnis von SVM ist, dass es einer logistischen Regression (LR) sehr ähnlich ist, dh eine gewichtete Summe von Merkmalen wird an die Sigmoidfunktion übergeben, um eine Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse zu erhalten, jedoch anstelle des Verlusts der Kreuzentropie (logistisch) Funktion wird das Training mit dem Scharnierverlust durchgeführt. Der Vorteil der Verwendung des Scharnierverlusts besteht darin, dass verschiedene numerische Tricks ausgeführt werden können, um die Kernelisierung effizienter zu gestalten. Ein Nachteil ist jedoch, dass das resultierende Modell weniger Informationen enthält, als ein entsprechendes LR-Modell haben könnte. So wäre beispielsweise ohne Kernelisierung (unter Verwendung eines linearen Kernels) die SVM-Entscheidungsgrenze immer noch an derselben Stelle, an der LR eine Wahrscheinlichkeit von 0,5 ausgeben würde, ABER man kann nicht sagen, wie schnell die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse von der abfällt Entscheidungsgrenze.

Meine zwei Fragen sind:

Ist meine Interpretation oben richtig?
Wie macht es die Verwendung des Scharnierverlusts ungültig, SVM-Ergebnisse als Wahrscheinlichkeiten zu interpretieren?

machine-learning logistic svm GingerBadger
quelle

Antworten:

$\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$

Im Fall einer linearen SVM (kein Kernel) ähnelt die Entscheidungsgrenzgrenze der eines logistischen Regressionsmodells, kann jedoch abhängig von der Regularisierungsstärke variieren, die Sie für die Anpassung der SVM verwendet haben. Da SVM und LR unterschiedliche Optimierungsprobleme lösen, ist nicht garantiert, dass Sie identische Lösungen für die Entscheidungsgrenze haben.

Es gibt viele Ressourcen zur SVM, die helfen, die Dinge zu klären: Hier ist ein Beispiel und ein anderes .

der Higgs Broson
quelle

higgs boson Das ist sehr hilfreich, danke! Nur ein paar weitere Fragen: (1) Können Sie ein intuitives Beispiel geben, wenn eine SVM-Entscheidungsgrenze NICHT einer LR ähnlich wäre? (2) Ist eine der linearen SVM und LR im Allgemeinen besser als die andere oder gibt es sie? Arten von Problemen, für die entweder vorzuziehen ist?

GingerBadger

Alex: Im Allgemeinen sind lineare SVMs und LR in der Praxis vergleichbar. Wenn Sie eine probabilistische Ausgabe wünschen, verwenden Sie LR. Wenn Sie sich nur für Klassenzuweisungen interessieren, können Sie beide verwenden. Wenn Sie ein Beispiel wünschen, bei dem die Entscheidungsgrenzen sehr unterschiedlich sind, können Sie sich einen linear trennbaren Datensatz mit einer Handvoll Punkten der falschen Klasse weit entfernt von der Entscheidungsgrenze vorstellen. Die Ausreißer würden die logistische Regressionsgrenze in ihre Richtung ziehen, aber wenn Sie eine SVM mit einem ausreichend großen Regularisierungsterm hätten, würden die Ausreißer effektiv ignoriert.

der Higgs Broson