Ich habe an diesem Austausch eine heuristische Methode zur Schätzung von Gamma für den RBF-Kernel in SVMs gelesen. Ich habe mich gefragt, ob jemand es mir vielleicht etwas genauer erklären kann. Ich glaube, Sie wählen 1000 (oder eine große Anzahl) von Datenpunktpaaren aus dem Datensatz aus und berechnen dann die Norm für die Differenz jedes Paares. Anscheinend sind die Umkehrung der .1, .9-Quantile und der Median gute Kandidaten für ein geeignetes Gamma für den rbf-Kernel.
Vielen Dank
Antworten:
Erstens gibt es keinen Grund - außer den Rechenkosten -, nicht den gesamten Datensatz zu verwenden. Solange Sie keine Etiketteninformationen verwenden, gibt es keinen Grund, nicht alle Informationen zu verwenden, die Sie aus Ihren Daten erhalten können.
Warum sind Quantile der Entfernung eine gute Heuristik? Die Lösung eines SVM-Problems ist eine lineare Kombination der RBF-Kernel, die auf den Unterstützungsvektoren sitzen . Während der Lernphase passt die Optimierung das an, um den Spielraum zu maximieren und gleichzeitig die korrekte Klassifizierung .α i∑ichyichαichexp( - γ| | x- xich| |2) αich
Nun gibt es zwei Extremfälle für die Wahl von :γ
Um zu sehen, dass die Heuristik eine gute Wahl ist, muss man erkennen, dass ein bestimmter Wert von eine Grenze für den RBF-Kernel bestimmt, in der der Kernel größer als ein bestimmter Wert ist (wie das Ein- Quantil für das Normal Verteilung). Durch Auswahl von gemäß Quantilen in den paarweisen Abständen stellen Sie sicher, dass ein bestimmter Prozentsatz der Datenpunkte innerhalb dieser Grenze liegt. Wenn Sie also für einen Datenpunkt ändern, wirkt sich dies tatsächlich nur auf die Entscheidungsfunktion für einen bestimmten Prozentsatz von Datenpunkten aus, den Sie möchten. Wie dieser Prozentsatz gewählt werden sollte, hängt vom Lernproblem ab, aber Sie vermeiden es, die Entscheidungsfunktion für alle oder zu ändernσ γ α iγ σ γ αich nur ein Datenpunkt.
quelle
Ja! Sie beschreiben den sogenannten "Median-Trick".
Jetzt ist klar, dass das Problem der Suche nach einem guten im Wesentlichen dasselbe ist wie die Suche nach einer guten Varianz für eine Gaußsche Funktion (abzüglich eines Skalierungsfaktors).γ
Wie im obigen Poster erwähnt, können wir mithilfe von Quantilen steuern, wie viele Datenpunkte innerhalb einer (oder zweier oder drei) Standardabweichungen unserer Gaußschen Funktion liegen.
quelle