Kreuzvalidierungsmissbrauch (Reporting-Leistung für den besten Hyperparameter-Wert)

30

Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden.

Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten einen separaten Testsatz beibehalten, um eine Genauigkeitsschätzung für Proben zu erhalten, die nicht zur Durchführung der Hyperparameteroptimierung verwendet wurden.

Habe ich recht? Können Sie einige Referenzen (vorzugsweise Forschungsarbeiten) angeben, die diesen Missbrauch der Kreuzvalidierung beschreiben?

Daniel López
quelle
3
Beachten Sie, dass anstelle eines separaten Testsets eine sogenannte verschachtelte Kreuzvalidierung verwendet werden kann . Wenn Sie auf dieser Site nach diesem Begriff suchen, finden Sie viele Diskussionen. Achten Sie insbesondere auf die Antworten von @DikranMarsupial , einem der Autoren des zweiten Papiers, das in der akzeptierten Antwort zitiert wird.
Amöbe sagt Reinstate Monica

Antworten:

29

Ja, es gibt Probleme, wenn nur k-fache CV-Ergebnisse gemeldet werden. Sie können zB die folgenden drei Publikationen für Ihren Zweck verwenden (obwohl es natürlich mehr gibt), um die Leute in die richtige Richtung zu lenken:

Ich persönlich mag diese, weil sie versuchen, die Themen mehr in einfachem Englisch als in Mathe zu formulieren.

Geekoverdose
quelle
2
Genauer gesagt werden hier keine Ergebnisse der Kreuzvalidierung gemeldet, sondern Leistungsschätzungen, die Teil des Auswahl- / Optimierungsprozesses waren.
cbeleites unterstützt Monica
1
Beachten Sie auch, dass das Papier von Bengio & Grandvalet weniger relevant ist, wenn es um die Leistung eines bestimmten Modells geht, das für einen bestimmten Datensatz trainiert wurde. Hier wird die Leistung für denselben Trainingsalgorithmus erörtert, der auf neue Datensätze aus derselben Grundgesamtheit (die benötigt wird) angewendet wird die Varianz zwischen verschiedenen Datensätzen derselben Größe, die aus derselben Quelle entnommen wurden, einzubeziehen - was kein Problem ist, wenn es um die Vorhersageleistung eines Modells geht, das für einen bestimmten Datensatz trainiert wurde).
cbeleites unterstützt Monica
1
@cbeleites Richtig erkannt: In meinem ersten Entwurf der Antwort habe ich versehentlich die dritte Referenz anstelle der zweiten ausgewählt, wollte aber später keine Informationen mehr aus der bereits akzeptierten Antwort entfernen - weshalb ich stattdessen die zweite in hinzugefügt habe zwischen (siehe Versionen der Antwort). Ich denke jedoch, dass die Frage hauptsächlich um den gemeldeten Fehler ging, und diese Papiere zeigen einige der Dinge auf, die man in dieser Hinsicht mit dem Lebenslauf sehr gut falsch machen kann, meiner Meinung nach.
Geekoverdose