Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist.
Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern / -aufenthalten durchführen. Das Hauptziel wird die Vorhersage für neue Kohorten von Studenten sein, aber wir haben keinen Grund zu der Annahme, dass sie sich stark von der letztjährigen Kohorte unterscheiden werden.
Normalerweise habe ich keinen solchen Datenluxus und mache Modellanpassungen mit einer Art Bestrafung, aber dieses Mal dachte ich, ich teile int Trainings- und Testdatensätze auf und mache dann die Variablenauswahl für den Trainingssatz. dann Verwenden des Testdatensatzes zum Schätzen von Parametern und Vorhersagekapazität.
Ist das eine gute Strategie? Wenn nicht, was ist besser?
Zitate sind willkommen, aber nicht erforderlich.
quelle
Ich habe dieses Papier selbst nach der ähnlichen Aufgabe der Kreuzvalidierung von Überlebensvorhersagen durchsucht. Die guten Teile beginnen bei Kapitel 2.
quelle
Inzwischen habe ich dieses Papier gefunden, das nicht nur meine Frage beantwortet, sondern auch eine Methode zum Ermitteln der optimalen Aufteilung für bestimmte Datensätze bietet. Ich fand dies dank der Verwendung des Begriffs "optimale Split - Konfiguration" durch @FrankHarrell, den ich dann googelte.
quelle