Ist die private Bestenliste von Kaggle ein guter Indikator für die Out-of-Sample-Leistung des Gewinnermodells?

16

Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen?

Laut "Pseudomathematik und Finanzscharlatanismus: Die Auswirkungen von Backtest-Überanpassung auf die Out-of-Sample-Performance" von Bailey et al. Es ist relativ einfach, eine Überanpassung vorzunehmen, wenn aus einer großen Anzahl von Modellen, die mit demselben Datensatz bewertet wurden, das beste ausgewählt wird. Passiert das nicht mit Kaggles privater Rangliste?

  • Was sind die statistischen Rechtfertigungen für die Modelle mit der besten Leistung in der privaten Bestenliste, die die besten Daten für Daten verallgemeinern, die außerhalb der Stichprobe liegen?
  • Verwenden Unternehmen tatsächlich die Gewinnermodelle oder dient die private Rangliste nur dazu, die "Spielregeln" zu ermitteln, und sind die Unternehmen tatsächlich mehr an den Erkenntnissen interessiert, die sich aus der Diskussion des Problems ergeben?
ausspionieren
quelle
1
Etwas verwandt: stats.stackexchange.com/q/235591
Kodiologist
2
Sie könnten den Unterschied zwischen privaten und öffentlichen Partituren betrachten. Man könnte argumentieren, dass ein nicht überarbeitetes Modell für beide Datensätze eine ähnliche Leistung erzielen sollte.
Shadowtalker
2
@shadowtalker Das wäre in der Tat ein guter Weg, um eine Überanpassung zu erkennen. Was uns jedoch interessiert, ist die Vorhersagekraft des Modells außerhalb der Stichprobe, nicht der Grad der Überanpassung. Ein Overfit-Modell - dh eines, das in der Stichprobe viel besser funktioniert als außerhalb der Stichprobe - weist möglicherweise eine bessere Leistung außerhalb der Stichprobe auf als ein Modell, das nicht überarbeitet ist. Ich habe keine Referenz vorrätig, aber ich glaube, dass dies in komplexen Bereichen, z. B. Computer Vision, häufig der Fall ist, wenn komplexe Modelle, z. B. CNNs, verwendet werden.
Machen Sie den

Antworten:

10

Nun, die Punkte, die Sie präsentieren, sind fair, aber ich denke, dass es ein weitaus realeres Problem gibt, wenn die Leute in der öffentlichen Rangliste überanpassend sind .

Dies kann passieren , wenn Sie 100 tun oder so Einreichungen wird die Öffentlichkeit Testset schließlich ausbluten auf Ihre Hyper Auswahl und damit Überanpassung. Ich denke, dass die private Rangliste in dieser Hinsicht notwendig ist.

M Sef
quelle