Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden.
Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten einen separaten Testsatz beibehalten, um eine Genauigkeitsschätzung für Proben zu erhalten, die nicht zur Durchführung der Hyperparameteroptimierung verwendet wurden.
Habe ich recht? Können Sie einige Referenzen (vorzugsweise Forschungsarbeiten) angeben, die diesen Missbrauch der Kreuzvalidierung beschreiben?
cross-validation
references
model-selection
model-evaluation
Daniel López
quelle
quelle
Antworten:
Ja, es gibt Probleme, wenn nur k-fache CV-Ergebnisse gemeldet werden. Sie können zB die folgenden drei Publikationen für Ihren Zweck verwenden (obwohl es natürlich mehr gibt), um die Leute in die richtige Richtung zu lenken:
Varma & Simon (2006). "Abweichung bei der Fehlerschätzung bei Verwendung der Kreuzvalidierung für die Modellauswahl." BMC Bioinformatics , 7: 91
Cawley & Talbot (2010). "Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung." Journal of Machine Learning Research , 11: 2079–2107
Bengio & Grandvalet (2004). "Kein voreingenommener Schätzer für die Varianz der fachen Kreuzvalidierung." Journal of Machine Learning Research , 5: 1089–1105K
Ich persönlich mag diese, weil sie versuchen, die Themen mehr in einfachem Englisch als in Mathe zu formulieren.
quelle