Was ist das statistische Modell hinter dem SVM-Algorithmus?

28

Ich habe gelernt, dass der erste Schritt beim Umgang mit Daten mithilfe eines modellbasierten Ansatzes die Modellierung von Datenprozeduren als statistisches Modell ist. Der nächste Schritt ist die Entwicklung eines effizienten / schnellen Inferenz- / Lernalgorithmus basierend auf diesem statistischen Modell. Ich möchte also fragen, welches statistische Modell hinter dem SVM-Algorithmus (Support Vector Machine) steckt.

Huy Nguyen
quelle

Antworten:

27

Oft kann man ein Modell schreiben, das einer Verlustfunktion entspricht (hier gehe ich eher auf die SVM-Regression als auf die SVM-Klassifikation ein; es ist besonders einfach).

Zum Beispiel in einem linearen Modell, wenn Ihre Verlustfunktion ist dann , dass die Minimierung der maximale Wahrscheinlichkeit entspricht , wird für f α exp ( -ichG(εich)=ichG(yich-xichβ)= exp ( -fexp(-einG(ε)) . (Hier habe ich einen linearen Kernel)=exp(-einG(y-xβ))

Wenn ich mich richtig erinnere, hat die SVM-Regression eine Verlustfunktion wie diese:

Darstellung des epsilonunempfindlichen Verlustes

Das entspricht einer Dichte, die in der Mitte mit exponentiellen Schwänzen gleichmäßig ist (wie wir sehen, indem wir das Negative oder ein Vielfaches des Negativen potenzieren).

Diagramm der entsprechenden Dichte

Es gibt eine Familie mit drei Parametern: Eckstandort (relative Unempfindlichkeitsschwelle) plus Standort und Skalierung.

Es ist eine interessante Dichte; Wenn ich mich recht erinnere, dass ich diese bestimmte Verteilung vor einigen Jahrzehnten betrachtet habe, ist ein guter Schätzer für die Position dafür der Durchschnitt von zwei symmetrisch platzierten Quantilen, die der Stelle entsprechen, an der sich die Ecken befinden (z. B. in der Mitte) würde man eine gute Annäherung an MLE gibt besonder Wahl der Konstante im SVM-Verlust); Ein ähnlicher Schätzer für den Skalierungsparameter würde auf ihrer Differenz basieren, während der dritte Parameter im Wesentlichen der Ermittlung des Perzentils der Ecken entspricht (dies könnte eher gewählt als geschätzt werden, wie dies für SVM häufig der Fall ist).

Zumindest für die SVM-Regression scheint es also ziemlich einfach zu sein, zumindest wenn wir uns dafür entscheiden, unsere Schätzer mit maximaler Wahrscheinlichkeit zu erhalten.

(Für den Fall, dass Sie gleich fragen ... Ich habe keine Referenz für diese spezielle Verbindung zu SVM: Ich habe das gerade herausgefunden. Es ist jedoch so einfach, dass Dutzende von Leuten es ohne Zweifel vor mir herausgefunden haben es gibt referenzen dafür - ich habe gerade keine gesehen.)

Glen_b - Setzen Sie Monica wieder ein
quelle
2
(Ich habe das früher an anderer Stelle beantwortet, aber ich habe es gelöscht und hierher verschoben, als ich sah, dass Sie auch hier gefragt haben. Die Fähigkeit, Mathematik zu schreiben und Bilder einzuschließen, ist hier viel besser - und die Suchfunktion ist auch besser, sodass es einfacher ist, darin zu finden ein paar Monate)
Glen_b -Reinstate Monica
2
2
2
Wenn das OP nach SVM fragt, ist es wahrscheinlich an einer Klassifizierung interessiert (was die häufigste Anwendung von SVMs ist). In diesem Fall ist der Verlust ein Scharnierverlust, der etwas anders ist (Sie haben nicht den ansteigenden Teil). In Bezug auf das Modell hörte ich auf einer Konferenz von Wissenschaftlern, dass SVMs eingeführt wurden, um eine Klassifizierung durchzuführen, ohne dass ein probabilistischer Rahmen verwendet werden musste. Wahrscheinlich finden Sie deshalb keine Referenzen. Auf der anderen Seite können Sie die Scharnierverlustminimierung als empirische Risikominimierung umgestalten, was bedeutet, dass ...
DeltaIV
4
Nur weil Sie keinen probabilistischen Rahmen haben müssen, heißt das nicht, dass das, was Sie tun, keinem entspricht. Man kann kleinste Quadrate machen, ohne Normalität anzunehmen, aber es ist nützlich zu verstehen, dass das gut ist ... und wenn man nicht in der Nähe davon ist, kann es sein, dass es viel weniger gut ist.
Glen_b
3
Vielleicht ist icml-2011.org/papers/386_icmlpaper.pdf eine Referenz dafür? (Ich habe es nur überflogen )
Lyndon White
8

Ich glaube, jemand hat Ihre Frage bereits beantwortet, aber lassen Sie mich eine mögliche Verwirrung beseitigen.

Ihre Frage ähnelt etwa der folgenden:

f(x)=

Mit anderen Worten, es ist sicherlich hat eine gültige Antwort (vielleicht sogar ein einzigartigen ein , wenn Sie Regelmäßigkeit Einschränkungen auferlegen), aber es ist eine ziemlich seltsame Frage zu stellen, da es nicht eine Differentialgleichung war, die zu dieser Funktion an erster Stelle gab.
(Auf der anderen Seite, die Differentialgleichung gegeben, es ist natürlich für seine Lösung zu fragen, da diese in der Regel ist , warum Sie die Gleichung schreiben!)

Hier ist der Grund: Ich denke, Sie denken an probabilistische / statistische Modelle - insbesondere generative und diskriminative Modelle, die auf der Schätzung gemeinsamer und bedingter Wahrscheinlichkeiten aus Daten basieren.

Die SVM ist weder. Es ist eine ganz andere Art von Modell - eines, das diese umgeht und versucht, die endgültige Entscheidungsgrenze direkt zu modellieren, die Wahrscheinlichkeiten sind verdammt.

Da es darum geht, die Form der Entscheidungsgrenze zu finden, ist die Intuition dahinter eher geometrisch (oder wir sollten vielleicht sagen, optimierungsbasiert) als probabilistisch oder statistisch.

Angesichts der Tatsache, dass Wahrscheinlichkeiten auf dem Weg nicht wirklich berücksichtigt werden, ist es eher ungewöhnlich zu fragen, was ein entsprechendes Wahrscheinlichkeitsmodell sein könnte, und zumal das gesamte Ziel darin bestand, sich keine Sorgen um Wahrscheinlichkeiten machen zu müssen. Deshalb sehen Sie keine Leute, die über sie sprechen.

Mehrdad
quelle
6
Ich denke, Sie diskontieren den Wert der statistischen Modelle, die Ihrem Verfahren zugrunde liegen. Der Grund, warum es nützlich ist, ist, dass es Ihnen sagt, welche Annahmen hinter einer Methode stehen. Wenn Sie diese kennen, können Sie verstehen, mit welchen Situationen es zu kämpfen hat und wann es gedeihen wird. Sie können svm auch prinzipiell verallgemeinern und erweitern, wenn Sie das zugrunde liegende Modell haben.
Wahrscheinlichkeitsrechnung
3
@probabilityislogic: "Ich denke, Sie diskontieren den Wert der statistischen Modelle, die Ihrem Verfahren zugrunde liegen." ... Ich denke, wir sprechen aneinander vorbei. Ich versuche zu sagen, dass hinter dem Verfahren kein statistisches Modell steckt. Ich bin nicht sagen , dass es nicht möglich ist , mit einem kommen , dass es a posteriori passt, aber ich versuche zu erklären , dass es „hinter“ es in keiner Weise, sondern vielmehr „fit“ , um es nach der Tat . Ich sage auch nicht , dass es sinnlos ist, so etwas zu tun. Ich stimme Ihnen zu, dass dies einen enormen Wert haben könnte. Bitte beachten Sie diese Unterschiede.
Mehrdad
1
@Mehrdad: Ich sage nicht, dass es nicht möglich ist, eine zu finden, die a posteriori passt. Die Reihenfolge, in der die Teile der so genannten SVM-Maschine zusammengesetzt wurden (welches Problem hatten die Menschen, die sie entworfen haben, ursprünglich versucht) zu lösen) ist wissenschaftsgeschichtlich interessant. Aber nach allem, was wir wissen, könnte es in einer Bibliothek ein noch unbekanntes Manuskript geben, das eine Beschreibung der SVM-Engine von vor 200 Jahren enthält, die das Problem aus dem von Glen_b untersuchten Blickwinkel angreift. Vielleicht sind die Vorstellungen von a posteriori und danach in der Wissenschaft weniger verlässlich.
user603
1
@ user603: Es ist nicht nur die Geschichte, die hier das Problem darstellt. Der historische Aspekt ist nur die Hälfte davon. Die andere Hälfte ist, wie es normalerweise in der Realität abgeleitet wird. Es beginnt als Geometrieproblem und endet mit einem Optimierungsproblem. Niemand beginnt mit dem Wahrscheinlichkeitsmodell in der Herleitung, was bedeutet, dass das Wahrscheinlichkeitsmodell in keiner Weise "hinter" dem Ergebnis stand. Es ist, als ob man behauptet, die Mechanik von Lagrange liege "hinter" F = ma. Vielleicht kann es dazu führen, und ja, es ist nützlich, aber nein, es ist nicht und war nie die Grundlage dafür. Tatsächlich bestand das gesamte Ziel darin , die Wahrscheinlichkeit zu vermeiden .
Mehrdad