Bei der Durchführung einer 5-fachen Kreuzvalidierung (zum Beispiel) ist es typisch, eine separate ROC-Kurve für jede der 5-fachen und häufig eine mittlere ROC-Kurve mit Standard zu berechnen. dev. als Kurvendicke dargestellt.
Für die LOO-Kreuzvalidierung, bei der nur ein einziger Testdatenpunkt in jeder Falte vorhanden ist, erscheint es jedoch nicht sinnvoll, eine ROC- "Kurve" für diesen einzelnen Datenpunkt zu berechnen.
Ich habe alle meine Testdatenpunkte (zusammen mit ihren separat berechneten p-Werten) genommen und zu einem großen Satz zusammengefasst, um eine einzelne ROC-Kurve zu berechnen. Aber ist dies die statistisch koschere Aufgabe?
Was ist der richtige Weg, um die ROC-Analyse anzuwenden, wenn die Anzahl der Datenpunkte in jeder Falte eins beträgt (wie im Fall der LOO-Kreuzvalidierung)?
quelle
Antworten:
Wenn der Klassifizierer Wahrscheinlichkeiten ausgibt, ist es angemessen, alle Testpunktausgaben für eine einzelne ROC-Kurve zu kombinieren. Wenn nicht, skalieren Sie die Ausgabe des Klassifikators so, dass er direkt zwischen den Klassifikatoren vergleichbar ist. Angenommen, Sie verwenden die lineare Diskriminanzanalyse. Trainieren Sie den Klassifikator und führen Sie dann die Trainingsdaten durch den Klassifikator. Lernen Sie zwei Gewichte: einen Skalenparameter (die Standardabweichung der Klassifikatorausgaben nach Subtraktion der Klassenmittelwerte) und einen Verschiebungsparameter (den Mittelwert der ersten Klasse). Verwenden Sie diese Parameter, um die rohe Ausgabe jedes LDA-Klassifikators über zu normalisierenσ μ r n=(r−μ)/σ und dann können Sie eine ROC-Kurve aus dem Satz normalisierter Ausgänge erstellen. Dies hat die Einschränkung, dass Sie mehr Parameter schätzen, und daher können die Ergebnisse geringfügig abweichen, als wenn Sie eine ROC-Kurve basierend auf einem separaten Testsatz erstellt hätten.
Wenn es nicht möglich ist, Klassifikatorausgaben zu normalisieren oder in Wahrscheinlichkeiten umzuwandeln, ist eine auf LOO-CV basierende ROC-Analyse nicht geeignet.
quelle