Sollte eine SVM-Rastersuche einen Bereich mit hoher Genauigkeit und geringer Genauigkeit anzeigen?

12

Ich habe 12 positive Trainingssätze (Krebszellen, die mit Medikamenten mit jeweils 12 verschiedenen Wirkmechanismen behandelt wurden). Für jeden dieser positiven Trainingssätze möchte ich eine Support-Vektor-Maschine trainieren, um sie von einem negativen Satz gleicher Größe zu unterscheiden, der aus dem Experiment entnommen wurde. Jeder Satz hat zwischen 1000 und 6000 Zellen, und es gibt 476 Merkmale (Bildmerkmale) jeder Zelle, die jeweils linear auf [0, 1] skaliert sind.

Ich benutze LIBSVM und den Gaußschen RGB-Kernel. Mit der fünffachen Kreuzvalidierung habe ich eine Rastersuche nach log₂ C ∈ [-5, 15] und log₂ ɣ ∈ [-15, 3] durchgeführt. Die Ergebnisse sind wie folgt:

Ergebnisse der Rastersuche

Ich war enttäuscht, dass es keinen einzigen Parametersatz gibt, der für alle 12 Klassifizierungsprobleme eine hohe Genauigkeit bietet. Ich war auch überrascht, dass die Gitter im Allgemeinen keinen hochgenauen Bereich aufweisen, der von niedrigeren Genauigkeiten umgeben ist. Bedeutet dies nur, dass ich den Suchparameterraum erweitern muss, oder ist die Rastersuche ein Hinweis darauf, dass etwas anderes nicht stimmt?

Vebjorn Ljosa
quelle
2
Enttäuschung: Sie würden nicht erwarten, dass jedes Problem dieselben Parameter hat. Warum sollten Sie also erwarten, dass die Probleme gute Werte für die Hyperparameter (log gamma und C) aufweisen?
Conjugateprior
@Conjugate Prior: Die Trainingssätze sind Teilmengen desselben Experiments, und die negativen Trainingssätze stammen aus derselben Population. Ich hatte also gehofft, dass dieselbe RBF-Kernelbreite ɣ effektiv sein würde. Da die positiven Mengen von derselben (negativen) Hintergrundbevölkerung unterschieden werden, hatte ich gehofft, dass auch die ideale Strafe C ähnlich sein würde. Wenn dies nicht der Fall ist, ist die Anwendung von SVM sehr schwierig. Zum Beispiel scheint ein sanftes Boosten viel einfacher zu stimmen zu sein.
Vebjorn Ljosa
Aha. Aber es scheint mir, dass Sie, obwohl es sich um dasselbe Experiment im physikalischen Sinne handelt, dennoch getrennte und unterschiedliche Probleme im statistischen Sinne angreifen. Insbesondere, wenn die negativen Fälle für jede Behandlung erneut untersucht werden.
Conjugateprior
1
Übrigens ist die Rastersuche ziemlich ineffizient, der Nelder-Mead-Simplex-Optimierungsalgorithmus ist sehr effektiv, ebenso wie Methoden zur Optimierung des Gradientenabfalls. Die Rastersuche ist einfach, aber ein bisschen "Brute Force".
Dikran Beuteltier
@Vebjorn Ljosa (ein Jahr später), wie stark streuen sich die 5 Werte, etwa beim Finale (C, Gamma)? Sind die 12 Diagramme alle gleich skaliert, z. B. 50%. 100% korrekte Vorhersage? Danke
denis

Antworten:

9

Die optimalen Werte für die Hyperparameter sind für verschiedene Lernaufgaben unterschiedlich. Sie müssen sie für jedes Problem separat einstellen.

Der Grund, warum Sie kein einziges Optimum erhalten, liegt darin, dass sowohl der Kernel-Parameter als auch der Regularisierungsparameter die Komplexität des Modells steuern. Wenn C klein ist, erhalten Sie ein glattes Modell. Wenn der Kernel mit breit ist, erhalten Sie ein glattes Modell (da die Basisfunktionen nicht sehr lokal sind). Dies bedeutet, dass unterschiedliche Kombinationen von C und der Kernelbreite zu ähnlich komplexen Modellen mit ähnlicher Leistung führen (weshalb Sie in vielen Ihrer Diagramme das Diagonalmerkmal erhalten).

Das Optimum hängt auch von der jeweiligen Stichprobe des Trainingssatzes ab. Es ist möglich, den Kreuzvalidierungsfehler zu stark anzupassen. Wenn Sie also Pech haben, kann die Auswahl der Hyperparameter durch Kreuzvalidierung die Leistung tatsächlich verschlechtern, wenn Sie Pech haben. Siehe Cawley und Talbot für eine Diskussion darüber.

Die Tatsache, dass es ein breites Werteplateau für die Hyperparameter gibt, bei denen Sie ähnlich gute Werte erhalten, ist tatsächlich ein gutes Merkmal von Support-Vektor-Maschinen, da dies darauf hindeutet, dass sie bei der Modellauswahl nicht übermäßig anfällig für Überanpassungen sind. Wenn Sie einen scharfen Peak bei den optimalen Werten hätten, wäre dies eine schlechte Sache, da der Peak mit einem endlichen Datensatz schwer zu finden wäre, der einen unzuverlässigen Hinweis darauf liefert, wo sich dieser Peak tatsächlich befindet.

Dikran Beuteltier
quelle
Übrigens führe ich eine Studie zur Überanpassung bei der Modellauswahl mithilfe der Rastersuche durch, die sich als weitaus interessanter herausstellt, als ich gedacht hatte. Selbst mit wenigen Hyperparametern können Sie das Modellauswahlkriterium immer noch überanpassen, wenn Sie über ein Raster optimieren, dass es zu fein ist!
Dikran Beuteltier
Ich komme jetzt gegen Ende der Simulationsarbeit, hoffentlich kann ich das Papier in ein oder zwei Monaten einreichen ...
Dikran Marsupial
Es würde mich interessieren, dieses Papier zu lesen, wenn es fertig ist? Ich bin bei Optimierungen der Rastersuche auf einige seltsame Spitzen usw. gestoßen, die denen ähneln, die Sie hier diskutieren.
BGreene
Die gesamte Simulationsarbeit ist jetzt abgeschlossen. Ich setze das Papier gerade zusammen (meistens nur, um sicherzustellen, dass alles vollständig reproduzierbar ist). Ich habe alle Gitter gespeichert, sodass eine erneute Analyse möglich sein sollte, um andere Fragen zu untersuchen, an die ich damals nicht gedacht hatte.
Dikran Marsupial