Ich interessiere mich für theoretische Ergebnisse für die Verallgemeinerungsfähigkeit von Support Vector Machines, z. B. Grenzen der Wahrscheinlichkeit von Klassifizierungsfehlern und der Vapnik-Chervonenkis (VC) -Dimension dieser Maschinen. Beim Lesen der Literatur hatte ich jedoch den Eindruck, dass sich einige ähnliche wiederkehrende Ergebnisse von Autor zu Autor geringfügig unterscheiden, insbesondere in Bezug auf die technischen Bedingungen, die für eine bestimmte Bindung erforderlich sind.
Im Folgenden werde ich mich an die Struktur des SVM-Problems und an Zustand 3 der wichtigsten Verallgemeinerungsergebnisse erinnern, die ich in der einen oder anderen Form immer wieder gefunden habe ich gebe 3 Hauptreferenzen während der gesamten Darstellung.
Problemstellung :
Angenommen, wir haben eine Datenstichprobe von unabhängigen und identisch verteilten (iid) Paaren wobei für alle , und . Wir konstruieren eine Support Vector Machine (SVM), die den minimalen Rand zwischen der durch { x : w ⋅ x + b = 0 definierten trennenden Hyperebene maximiert , w ∈ undb∈ R und der nächstgelegene Punkt zwischen x 1 ,⋯, x n , um die beiden durchy=-1undy=1definierten Klassen zu trennen. Wir lassen die SVM einige Fehler durch einen weichen Rand zulassen, indemwirSlack-Variablen ξ 1 ,⋯, ξ n einführen-aber zur Vereinfachung der Notation ignorieren wir die Möglichkeit von Kerneln. Die Lösungsparameter w ∗ und werden durch Lösen des folgenden konvexen quadratischen Optimierungsprogramms erhalten:
Wir sind an der Generalisierungsfähigkeit dieser Maschine interessiert.
Vapnik-Chervonenkis-Dimension :
Ein erstes Ergebnis ist (Vapnik, 2000) zu verdanken, in dem er die VC-Dimension einer trennenden Hyperebene begrenzt, Satz 5.1. Wenn wir , haben wir:
Dieses Ergebnis findet sich erneut in (Burges, 1998), Satz 6. Es scheint jedoch, dass der Satz von Burges restriktiver ist als das gleiche Ergebnis von Vapnik, da er eine spezielle Kategorie von Klassifikatoren definieren muss, die als lückentolerante Klassifikatoren bekannt sind zu dem die SVM gehört - , um den Satz zu formulieren.
Grenzen der Fehlerwahrscheinlichkeit :
In (Vapnik, 2000) gibt Satz 5.2 auf Seite 139 die folgende Grenze für die SVM-Generalisierungsfähigkeit:
Dabei ist die Anzahl der Unterstützungsvektoren der SVM. Diese Ergebnisse scheinen wieder in (Burges, 1998), Gleichungen (86) bzw. (93) zu finden zu sein. Aber auch hier scheint sich Burges von Vapnik zu unterscheiden, da er die Komponenten innerhalb der oben genannten Minimalfunktion in verschiedenen Theoremen mit unterschiedlichen Bedingungen trennt.
Ein weiteres Ergebnis, das in (Vapnik, 2000), S. 133, erscheint, ist das folgende. Unter der Annahme, dass für alle , ‖ x i ‖ 2 ≤ R 2 und h ≡ V C und ϵ ϵ [ 0 , 1 ] gilt , definieren wir ζ als gleich:
Wir definieren auch als die Anzahl der vom SVM falsch klassifizierten Trainingsbeispiele. Dann mit einer Wahrscheinlichkeit von 1 - ε können wir behaupten , dass die Wahrscheinlichkeit , dass ein Testbeispiel wird nicht korrekt durch den getrennt wird m * -margin Hyperebene - dh SVM mit Marge m * - hat die gebunden:
In (Hastie, Tibshirani und Friedman, 2009), S. 438, wird jedoch ein sehr ähnliches Ergebnis gefunden:
Fazit :
Es scheint mir, dass zwischen diesen Ergebnissen ein gewisser Konflikt besteht. Andererseits sind zwei dieser Referenzen, obwohl sie in der SVM-Literatur kanonisch sind, etwas alt (1998 und 2000), insbesondere wenn man bedenkt, dass die Erforschung des SVM-Algorithmus Mitte der neunziger Jahre begann.
Meine Fragen sind:
- Sind diese Ergebnisse heute noch gültig oder haben sie sich als falsch erwiesen?
- Wurden seitdem engere Grenzen mit relativ lockeren Bedingungen abgeleitet? Wenn ja, von wem und wo kann ich sie finden?
- Gibt es schließlich ein Referenzmaterial, das die wichtigsten Verallgemeinerungsergebnisse zur SVM synthetisiert?
Referenzen :
Vapnik, VN (1998). Statistical Learning Theory , 1. Auflage, John Wiley & Sons
Vapnik, VN (2000). Die Natur der statistischen Lerntheorie , 2. Auflage, Springer
quelle
Antworten:
Ich kenne die Literatur, auf die Sie sich beziehen, nicht im Detail, aber ich denke, eine umfassende Zusammenfassung der Verallgemeinerungsgrenzen, die auf dem neuesten Stand sein sollten, finden Sie bei Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australien-Februar-2-14-2003-Tübingen-Deutschland-August-4-16-2003-Überarbeitete-Vorlesungen.pdf # page = 176 )
Ich werde einen Teil der SVM skizzieren, der im Folgenden gebunden ist, wobei Details und Beweise weggelassen werden.
Bevor wir speziell auf die SVM-Bindung eingehen, müssen wir verstehen, was die Generalisierungsgrenzen erreichen wollen.
Nehmen wir zunächst an, dass die wahre Wahrscheinlichkeit ist, dann wäre der Bayes-Klassifikator der bestmögliche Klassifikator, dh g ∗ = { + 1P.( Y.= + 1 | X.= x )
Das Ziel der statistischen Lerntheorie ist nun den Unterschied zwischen einem Klassifikator der Klasse zu finden (zB SVM) g n = a r g min g ∈ C L n ( g ) und die Bayes - Klassifikator dh L ( g n ) - L ( g * ) = L ( g n ) - L ( g * c ) + L ( g *C.
Der Schätzfehler kann mit Z = Z - E Z + E Z weiter zerlegt werden . Dies kann nun durch zwei Schritte begrenzt werden:Z.
Gebundenes Verwendung der McDiarmid-UngleichungZ.- E Z.
quelle