Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen?
Laut "Pseudomathematik und Finanzscharlatanismus: Die Auswirkungen von Backtest-Überanpassung auf die Out-of-Sample-Performance" von Bailey et al. Es ist relativ einfach, eine Überanpassung vorzunehmen, wenn aus einer großen Anzahl von Modellen, die mit demselben Datensatz bewertet wurden, das beste ausgewählt wird. Passiert das nicht mit Kaggles privater Rangliste?
- Was sind die statistischen Rechtfertigungen für die Modelle mit der besten Leistung in der privaten Bestenliste, die die besten Daten für Daten verallgemeinern, die außerhalb der Stichprobe liegen?
- Verwenden Unternehmen tatsächlich die Gewinnermodelle oder dient die private Rangliste nur dazu, die "Spielregeln" zu ermitteln, und sind die Unternehmen tatsächlich mehr an den Erkenntnissen interessiert, die sich aus der Diskussion des Problems ergeben?
model-selection
overfitting
out-of-sample
ausspionieren
quelle
quelle
Antworten:
Nun, die Punkte, die Sie präsentieren, sind fair, aber ich denke, dass es ein weitaus realeres Problem gibt, wenn die Leute in der öffentlichen Rangliste überanpassend sind .
Dies kann passieren , wenn Sie 100 tun oder so Einreichungen wird die Öffentlichkeit Testset schließlich ausbluten auf Ihre Hyper Auswahl und damit Überanpassung. Ich denke, dass die private Rangliste in dieser Hinsicht notwendig ist.
quelle