Ich habe ein konzeptionelles Problem mit dem Verständnis, wie eine schrittweise logistische Regression validiert werden kann. Jedes Mal, wenn der Trainingssatz geteilt wird, ist es sehr wahrscheinlich, dass unterschiedliche Merkmale basierend auf den Kriterien für Penter und Premove ausgewählt werden. Sollte ich jedes Mal eine Kreuzvalidierung mit einem anderen gewählten Modell durchführen oder sollte ich eine Grundwahrheit finden und mit der Kreuzvalidierung fortfahren? Ich denke, letzteres klingt vernünftiger, aber ich befürchte, dass ich irgendwo die Testblindheit gefährde. Hilfe wird geschätzt.
7
Antworten:
Die Elemente des statistischen Lernens geben die Antwort ganz klar wieder (zweite Ausgabe, S. 246):
Bei dieser Art der Analyse besteht das Problem darin, dass die aus Ihrer Stichprobe abgeleitete "Grundwahrheit" möglicherweise nicht die "Grundwahrheit" in der Bevölkerung darstellt. Eine Kreuzvalidierung kann bei der Verallgemeinerung der Ergebnisse auf die Grundgesamtheit hilfreich sein, jedoch nur, wenn alle Schritte des Modellierungsverfahrens für jede Validierungsfalte wiederholt werden.
Wie sowohl ich als auch @ user777 empfehlen, sind Sie wahrscheinlich besser dran, wenn Sie eine andere Methode als die schrittweise Auswahl verwenden, um mit Ihren korrelierten Prädiktorvariablen umzugehen. Bei stark korrelierten Prädiktoren führt die schrittweise Auswahl mit ziemlicher Sicherheit zu einer sehr unterschiedlichen Auswahl von Prädiktoren von Falte zu Falte. Regularisierungsmethoden gehen viel besser mit korrelierten Prädiktoren um. Die Ridge-Regression ist beispielsweise im Wesentlichen eine Hauptkomponenten-Regression mit Gewichten auf den Komponenten, so dass stark korrelierte Variablen dazu neigen, in denselben Komponenten zusammen aufzutauchen.
quelle
Die 1970er Jahre riefen an. Es will seine antiquierte, baufällige schrittweise Regression zurück.
Die 1990er Jahre riefen an. Sie sollen die heuristischen Ad-hoc-Methoden anwenden, einschließlich LASSO !!!!, die in den Elementen des statistischen Lernens empfohlen werden, wie in der Antwort von EdM angegeben.
Das neue Jahrtausend heißt. Es sagt Ihnen, dass Sie diesen ganzen Ad-hoc-Unsinn vergessen und einen systematischen Optimierungsansatz für gemischte Ganzzahlen anwenden müssen, um die besten Teilmengen auszuwählen. Das ist der richtige Weg, Baby. "Beste Auswahl von Teilmengen über ein modernes Optimierungsobjektiv", Bertsimas, King, Mazumder . Es wird die Elemente des statistischen Lernens Empfehlungen aus dem Wasser blasen. Natürlich gibt es möglicherweise noch keine R-Pakete in Dosen, die sofort einsatzbereit sind.
Endgültige Version des Artikels, der später in The Annals of Statistics (Open Access) veröffentlicht wurde .
quelle