SVM rbf kernel - heuristische Methode zur Schätzung von Gamma

8

Ich habe an diesem Austausch eine heuristische Methode zur Schätzung von Gamma für den RBF-Kernel in SVMs gelesen. Ich habe mich gefragt, ob jemand es mir vielleicht etwas genauer erklären kann. Ich glaube, Sie wählen 1000 (oder eine große Anzahl) von Datenpunktpaaren aus dem Datensatz aus und berechnen dann die Norm für die Differenz jedes Paares. Anscheinend sind die Umkehrung der .1, .9-Quantile und der Median gute Kandidaten für ein geeignetes Gamma für den rbf-Kernel.

Vielen Dank

tomas
quelle
Siehe auch diese Antwort auf eine doppelte Frage
denis

Antworten:

8

Erstens gibt es keinen Grund - außer den Rechenkosten -, nicht den gesamten Datensatz zu verwenden. Solange Sie keine Etiketteninformationen verwenden, gibt es keinen Grund, nicht alle Informationen zu verwenden, die Sie aus Ihren Daten erhalten können.

Warum sind Quantile der Entfernung eine gute Heuristik? Die Lösung eines SVM-Problems ist eine lineare Kombination der RBF-Kernel, die auf den Unterstützungsvektoren sitzen . Während der Lernphase passt die Optimierung das an, um den Spielraum zu maximieren und gleichzeitig die korrekte Klassifizierung .α iichyichαichexp(- -γ||x- -xich||2)αich

Nun gibt es zwei Extremfälle für die Wahl von :γ

  1. Stellen Sie sich vor, das ist sehr klein, was bedeutet, dass der RBF-Kernel sehr breit ist. Nehmen wir an, dass es so breit ist, dass der RBF-Kernel für jeden Datenpunkt des Datensatzes immer noch ausreichend positiv ist. Dies wird dem Optimierer wahrscheinlich einen schwierigen Job geben, da das Ändern des Werts eines einzelnen die Entscheidungsfunktion für alle Datenpunkte ändert, da der Kernel zu breit ist.α iγαich
  2. Die andere extreme Situation ist, wenn das groß ist, was bedeutet, dass der RBF-Kernel sehr eng ist. Wenn Sie für diesen Datenpunkt ändern, ändert sich die Entscheidungsfunktion der SVM grundsätzlich nur für diesen Datenpunkt. Dies bedeutet, dass wahrscheinlich alle Trainingsvektoren als Unterstützungsvektoren enden werden. Dies ist eindeutig nicht wünschenswert.α iγαich

Um zu sehen, dass die Heuristik eine gute Wahl ist, muss man erkennen, dass ein bestimmter Wert von eine Grenze für den RBF-Kernel bestimmt, in der der Kernel größer als ein bestimmter Wert ist (wie das Ein- Quantil für das Normal Verteilung). Durch Auswahl von gemäß Quantilen in den paarweisen Abständen stellen Sie sicher, dass ein bestimmter Prozentsatz der Datenpunkte innerhalb dieser Grenze liegt. Wenn Sie also für einen Datenpunkt ändern, wirkt sich dies tatsächlich nur auf die Entscheidungsfunktion für einen bestimmten Prozentsatz von Datenpunkten aus, den Sie möchten. Wie dieser Prozentsatz gewählt werden sollte, hängt vom Lernproblem ab, aber Sie vermeiden es, die Entscheidungsfunktion für alle oder zu ändernσ γ α iγσγαichnur ein Datenpunkt.

fabelhaft
quelle
Danke Fabee, das macht sehr viel Sinn. Ich bin neugierig wegen der Berechnungskosten für die Kreuzvalidierung + Rastersuche mit meinem Datensatz. Ich beschäftige mich auch mit Zeitreihen, also mache ich eine Kreuzvalidierung vom Typ eines rollenden Fensters anstatt von K-Falten. Wenn Sie einige Beschleunigungsvorschläge haben, sind diese auf jeden Fall offen. Oder Vorschläge zum Umgang mit abhängigen (autokorrelierten) Zeitreihendaten. Vielen Dank.
Thomas
Entschuldigung, ich habe keinen guten Vorschlag auf den ersten Blick. Das Problem ist, dass die Daten nicht mehr iid sind. Eine einfache Möglichkeit, die Autokorrelationen zu beseitigen, um ein autoregressives Modell zu trainieren und die Vorhersage von den Datenpunkten zu subtrahieren. Dies ist im Wesentlichen Bleaching.
Fabee
1

Ja! Sie beschreiben den sogenannten "Median-Trick".

γ

γ=12σ2
ϕ(x)=ex- -xich22σ2

Jetzt ist klar, dass das Problem der Suche nach einem guten im Wesentlichen dasselbe ist wie die Suche nach einer guten Varianz für eine Gaußsche Funktion (abzüglich eines Skalierungsfaktors).γ

xichE.[(x- -xich)2]]

Wie im obigen Poster erwähnt, können wir mithilfe von Quantilen steuern, wie viele Datenpunkte innerhalb einer (oder zweier oder drei) Standardabweichungen unserer Gaußschen Funktion liegen.

dswah
quelle