Ich weiß, dass das Optimieren von Hyperparametern außerhalb der Kreuzvalidierung zu verzerrt hohen Schätzungen der externen Validität führen kann, da der Datensatz, mit dem Sie die Leistung messen, derselbe ist, den Sie zum Optimieren der Features verwendet haben.
Ich frage mich, wie schlimm dieses Problem ist . Ich kann verstehen, wie schlecht es für die Funktionsauswahl wäre, da Sie auf diese Weise eine Vielzahl von Parametern abstimmen können. Aber was ist, wenn Sie so etwas wie LASSO (das nur einen Parameter hat, die Regularisierungsstärke) oder eine zufällige Gesamtstruktur ohne Feature-Auswahl (die einige Parameter haben kann, aber nichts so Dramatisches wie das Hinzufügen / Löschen von Noise-Features) verwenden?
Wie optimistisch können Sie in diesen Szenarien mit einer Schätzung des Trainingsfehlers rechnen?
Ich würde mich über jede Information darüber freuen - Fallstudien, Artikel, Anekdaten usw. Danke!
EDIT: Zur Verdeutlichung spreche ich nicht über die Schätzung der Modellleistung auf Trainingsdaten (dh überhaupt keine Kreuzvalidierung verwenden). Mit "Hyperparameter-Optimierung außerhalb der Kreuzvalidierung" meine ich die Verwendung der Kreuzvalidierung nur zur Schätzung der Leistung jedes einzelnen Modells, jedoch ohne eine äußere, zweite Kreuzvalidierungsschleife zur Korrektur der Überanpassung innerhalb des Hyperparameter-Optimierungsverfahrens (im Unterschied zu Überanpassung während des Trainings). Siehe zB die Antwort hier .
quelle
Jeder komplexe Lernalgorithmus, wie SVM, neuronale Netze, Zufallsforst, ... kann eine 100% ige Trainingsgenauigkeit erreichen, wenn Sie ihn zulassen (zum Beispiel durch schwache / keine Regularisierung), was eine absolut schreckliche Generalisierungsleistung zur Folge hat.
Kurz gesagt, Sie können leicht mit einem perfekten Klassifikator auf Ihrem Trainingsset enden, der auf einem unabhängigen Testset absolut nichts Nützliches gelernt hat. So schlimm ist es.
quelle