Vergleich der Verteilungen der Generalisierungsleistung

10

Angenommen, ich habe zwei Lernmethoden für ein Klassifizierungsproblem , und , und ich schätze ihre Generalisierungsleistung mit etwas wie wiederholter Kreuzvalidierung oder Bootstrapping. Durch diesen Prozess erhalte ich eine Verteilung der Bewertungen und für jede Methode über diese Wiederholungen (z. B. die Verteilung der ROC-AUC-Werte für jedes Modell).AB PAPB

Wenn man sich diese Verteilungen , könnte es sein, dass aber dass (dh die erwartete Generalisierungsleistung von ist höher als , aber dass es mehr Unsicherheit über diese Schätzung gibt).μAμBσAσBAB

Ich denke, dies wird als Bias-Varianz-Dilemma in der Regression bezeichnet.

Welche mathematischen Methoden kann ich verwenden, um und zu vergleichen und schließlich eine fundierte Entscheidung darüber zu treffen, welches Modell verwendet werden soll?PAPB

Hinweis: Der Einfachheit halber beziehe ich mich hier auf zwei Methoden und , aber ich interessiere mich für Methoden, mit denen die Verteilung der Punktzahlen von ~ 1000 Lernmethoden (z. B. aus einer Rastersuche) verglichen und schließlich erstellt werden kann eine endgültige Entscheidung darüber, welches Modell verwendet werden soll.AB

Amelio Vazquez-Reina
quelle
Ich denke, der Begriff Bias-Varianz-Kompromiss trifft hier nicht zu, weil Sie einen mittleren quadratischen Fehler nicht in einen Bias und eine Varianz zerlegen und nicht über die Varianz eines Schätzers sprechen, sondern über die Varianz eines Scores.
Lucas
Danke @Lucas. Ich versuche, die Punktzahl meiner Klassifikatoren und anhand nicht sichtbarer Daten zu schätzen . Aus diesem dachte ich, ich könnte den Mittelwert der Bewertungen der gesehenen Daten als meine Schätzer verwenden (dh und für bzw. ). Unterscheidet sich die Varianz dieser Schätzer von der Varianz der Scores und ? ABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina
2
@ user815423426 Ich denke, der Vergleich hängt von der Verlustfunktion ab, die Sie haben. Diebold und Mariano (2002) haben eine schöne Arbeit, die Ihre Frage untersucht. Sie schlugen einige statistische Tests vor, in denen die "Generalisierungs" -Leistung verglichen wurde. Ich weiß nicht, wie ich einen Link in Kommentaren einrichten soll. Das Papier ist: Diebold, Francis X. und Robert S. Mariano. "Vergleich der Vorhersagegenauigkeit." Journal of Business & Economic Statistics 20.1 (2002): 134-144.
Semibruin

Antworten:

2

Wenn es nur zwei Methoden gibt, A und B, würde ich die Wahrscheinlichkeit berechnen, dass für eine beliebige Trainings- / Testpartition der Fehler (gemäß einer geeigneten Leistungsmetrik) für Modell A niedriger war als der Fehler für Modell B. Wenn diese Wahrscheinlichkeit Wenn ich größer als 0,5 wäre, würde ich Modell A und ansonsten Modell B wählen (vgl. Mann-Whitney-U-Test?). Ich vermute jedoch stark, dass dies dazu führen wird, dass das Modell mit dem niedrigeren Mittelwert ausgewählt wird, es sei denn, die Verteilungen der Leistungsstatistik sind sehr ungleichmäßig -symmetrisch.

Bei der Rastersuche ist die Situation etwas anders, da Sie nicht wirklich verschiedene Methoden vergleichen, sondern stattdessen die (Hyper-) Parameter desselben Modells so anpassen, dass sie zu einer endlichen Stichprobe von Daten passen (in diesem Fall indirekt über Kreuz) -Validierung). Ich habe festgestellt, dass diese Art der Abstimmung sehr anfällig für Überanpassungen sein kann, siehe mein Papier

Gavin C. Cawley, LC Talbot von Nicola, "Über Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung", Journal of Machine Learning Research, 11 (Jul): 2079–2107, 2010. ( www )

Ich habe ein Papier im Rückblick, das zeigt, dass es wahrscheinlich am besten ist, ein relativ grobes Raster für Kernel-Maschinen (z. B. SVMs) zu verwenden, um eine Überanpassung des Modellauswahlkriteriums zu vermeiden. Ein anderer Ansatz (den ich nicht untersucht habe, also Vorbehalt!) Wäre, das Modell mit dem höchsten Fehler zu wählen, der dem besten in der Rastersuche gefundenen Modell statistisch nicht unterlegen ist (obwohl dies insbesondere ein eher pessimistischer Ansatz sein kann für kleine Datensätze).

Die eigentliche Lösung besteht jedoch wahrscheinlich nicht darin, die Parameter mithilfe der Rastersuche zu optimieren, sondern über die Parameterwerte zu mitteln, entweder in einem Bayes'schen Ansatz oder nur als Ensemble-Methode. Wenn Sie nicht optimieren, ist es schwieriger zu überanpassen!

Dikran Beuteltier
quelle
Danke Dikran. Wenn Sie sagen, "average over the parameter values"ich denke, Sie verstehen, wie dies durch eine Ensemble-Methode zu tun ist (z. B. Erstellen der Ensemble-Ausgabe als Durchschnitt der Klassifikatorausgaben), aber ich bin mir nicht sicher, wie dies mit einem Bayes'schen Ansatz bei der Arbeit mit einem diskriminierenden Modell geschehen soll. Ich verstehe die Theorie eines vollständig Bayes'schen Ansatzes (dh vermeiden Sie Punktschätzungen und marginalisieren Sie die Parameter, um den endgültigen Posterior zu erstellen), aber unter der Annahme, dass mein Vorrang vor den Parametern einheitlich ist, wäre dies nicht gleichbedeutend mit dem Aufbau des Mittelungsensembles ?
Amelio Vazquez-Reina
1
Beim Bayes'schen Ansatz würden die Modelle nach ihrer Grenzwahrscheinlichkeit (dh nach Bayes'schen Beweisen) und nach vorheriger Überlagerung der Hyperparameter gewichtet, so dass es ein Sonderfall wäre, über ein Ensemble mit einer bestimmten Methode zur Gewichtung der Modelle zu mitteln.
Dikran Beuteltier