Ich habe mich gefragt, ob es möglich ist, eine SVM (sagen wir eine lineare, um die Sache zu vereinfachen) mit Backpropagation zu trainieren.
Derzeit bin ich an einer Straßensperre, weil ich nur daran denken kann, die Ausgabe des Klassifikators als zu schreiben
Wenn wir also versuchen, den "Rückwärtsdurchlauf" (propagierten Fehler) zu berechnen, erhalten wir , da dieAbleitung vonsgn(x)ist dsgn(x)
In ähnlicher Weise stellen wir fest, dass , was bedeutet, dass wir keine Informationen zurückgeben oder Gradientenaktualisierungen durchführen können!
Was gibt?
Wenn Sie nur an dem linearen Fall interessiert sind, ist die logistische Regression (LR) die bessere Wahl, da sie sowohl konvex als auch analytisch ist (Sie können sie möglicherweise kämmen, wenn Sie an der Regularisierung interessiert sind). Aber wenn Sie sich für nichtlinear entscheiden, kommt der schwierige Teil ins Spiel. In nichtlinearen Fällen gibt es keine vernünftige Möglichkeit, die Dinge sowohl konvex als auch analytisch zu halten. Sie müssen eines der beiden opfern. In neuronalen Netzen opfern Sie die Konvexität und in svms opfern Sie den Holomorphismus.
Genau genommen gibt es keinen Unterschied zwischen LR und SVM. SVMs sagen nur voraus, auf welcher Seite der Linie ein Punkt liegt. LRs berücksichtigen auch, wie weit sie von der Grenze entfernt sind (auf der Grenzrandlinie gibt Ihnen das Sigmoid die Wahrscheinlichkeit 0,5 im Falle von LR). SVMs sind gezwungen, diesen Kompromiss einzugehen, da für nichtlineare Kernel die Intuition der Entfernung von einer gekrümmten Hyperebene (algebraische Varietät ist ein besserer Begriff) nicht dieselbe ist wie im linearen Fall, sondern das Problem der Lösung der kürzesten Entfernung von einer Hyperfläche zu einem bestimmten Punkt ist sehr schwer (schwerer als die SVM selbst), aber andererseits hat Vapnik erkannt, dass es sehr einfach ist, nur vorherzusagen, auf welcher Seite der Grenze ein Punkt liegt, wie in der O (1) -Zeit. Dies ist die wahre Erkenntnis hinter SVM und macht es zur einzigen verfügbaren konvexen Optimierungsalternative in der statistischen Lerntheorie. Aber ich habe das Gefühl, Sie opfern etwas zu viel, sowohl der Holomorphismus als auch die Wahrscheinlichkeitsfähigkeit gehen verloren. Aber für bestimmte Fälle wie Ground-Truthing sind SVMs sehr zuverlässig und im Gegensatz zu ihren nicht konvexen Alternativen auch vollständig fälschbare wissenschaftliche Modelle.
Tldr: Ja, der Mittelwertsatz dient zur Rettung nichtanalytischer Funktionen. In konvex-nichtanalytischen Fällen wird der Mittelwert-Thorem zu einer Ungleichung, bei der einige Randbedingungen für die Subgradienten festgelegt werden, um einen Subgradienten-Anstand zu erzielen
quelle