Angenommen, ich habe zwei Lernmethoden für ein Klassifizierungsproblem , und , und ich schätze ihre Generalisierungsleistung mit etwas wie wiederholter Kreuzvalidierung oder Bootstrapping. Durch diesen Prozess erhalte ich eine Verteilung der Bewertungen und für jede Methode über diese Wiederholungen (z. B. die Verteilung der ROC-AUC-Werte für jedes Modell).
Wenn man sich diese Verteilungen , könnte es sein, dass aber dass (dh die erwartete Generalisierungsleistung von ist höher als , aber dass es mehr Unsicherheit über diese Schätzung gibt).
Ich denke, dies wird als Bias-Varianz-Dilemma in der Regression bezeichnet.
Welche mathematischen Methoden kann ich verwenden, um und zu vergleichen und schließlich eine fundierte Entscheidung darüber zu treffen, welches Modell verwendet werden soll?
Hinweis: Der Einfachheit halber beziehe ich mich hier auf zwei Methoden und , aber ich interessiere mich für Methoden, mit denen die Verteilung der Punktzahlen von ~ 1000 Lernmethoden (z. B. aus einer Rastersuche) verglichen und schließlich erstellt werden kann eine endgültige Entscheidung darüber, welches Modell verwendet werden soll.
quelle
Antworten:
Wenn es nur zwei Methoden gibt, A und B, würde ich die Wahrscheinlichkeit berechnen, dass für eine beliebige Trainings- / Testpartition der Fehler (gemäß einer geeigneten Leistungsmetrik) für Modell A niedriger war als der Fehler für Modell B. Wenn diese Wahrscheinlichkeit Wenn ich größer als 0,5 wäre, würde ich Modell A und ansonsten Modell B wählen (vgl. Mann-Whitney-U-Test?). Ich vermute jedoch stark, dass dies dazu führen wird, dass das Modell mit dem niedrigeren Mittelwert ausgewählt wird, es sei denn, die Verteilungen der Leistungsstatistik sind sehr ungleichmäßig -symmetrisch.
Bei der Rastersuche ist die Situation etwas anders, da Sie nicht wirklich verschiedene Methoden vergleichen, sondern stattdessen die (Hyper-) Parameter desselben Modells so anpassen, dass sie zu einer endlichen Stichprobe von Daten passen (in diesem Fall indirekt über Kreuz) -Validierung). Ich habe festgestellt, dass diese Art der Abstimmung sehr anfällig für Überanpassungen sein kann, siehe mein Papier
Gavin C. Cawley, LC Talbot von Nicola, "Über Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079–2107, 2010. ( www )
Ich habe ein Papier im Rückblick, das zeigt, dass es wahrscheinlich am besten ist, ein relativ grobes Raster für Kernel-Maschinen (z. B. SVMs) zu verwenden, um eine Überanpassung des Modellauswahlkriteriums zu vermeiden. Ein anderer Ansatz (den ich nicht untersucht habe, also Vorbehalt!) Wäre, das Modell mit dem höchsten Fehler zu wählen, der dem besten in der Rastersuche gefundenen Modell statistisch nicht unterlegen ist (obwohl dies insbesondere ein eher pessimistischer Ansatz sein kann für kleine Datensätze).
Die eigentliche Lösung besteht jedoch wahrscheinlich nicht darin, die Parameter mithilfe der Rastersuche zu optimieren, sondern über die Parameterwerte zu mitteln, entweder in einem Bayes'schen Ansatz oder nur als Ensemble-Methode. Wenn Sie nicht optimieren, ist es schwieriger zu überanpassen!
quelle
"average over the parameter values"
ich denke, Sie verstehen, wie dies durch eine Ensemble-Methode zu tun ist (z. B. Erstellen der Ensemble-Ausgabe als Durchschnitt der Klassifikatorausgaben), aber ich bin mir nicht sicher, wie dies mit einem Bayes'schen Ansatz bei der Arbeit mit einem diskriminierenden Modell geschehen soll. Ich verstehe die Theorie eines vollständig Bayes'schen Ansatzes (dh vermeiden Sie Punktschätzungen und marginalisieren Sie die Parameter, um den endgültigen Posterior zu erstellen), aber unter der Annahme, dass mein Vorrang vor den Parametern einheitlich ist, wäre dies nicht gleichbedeutend mit dem Aufbau des Mittelungsensembles ?