Ich verstehe einige der vielen Probleme der schrittweisen Regression. Als akademisches Unterfangen gehe ich jedoch davon aus, dass ich die schrittweise Regression für ein Vorhersagemodell verwenden und die möglichen Auswirkungen auf die Leistung besser verstehen möchte.
Erhöht oder verringert die schrittweise Regression des Modells bei einem linearen Modell tendenziell die Vorhersagekraft des Modells, wenn neue Daten präsentiert werden?
Gibt es theoretische Auswirkungen, die eine schrittweise Regression auf die Vorhersagefähigkeit haben wird?
Praktische Erfahrung wäre ebenfalls hilfreich; Vielleicht Situationen, in denen eine schrittweise Regression die Vorhersage verbessert und in denen dies nicht der Fall ist.
regression
predictive-models
stepwise-regression
Underminer
quelle
quelle
Antworten:
Es gibt eine Vielzahl von Problemen bei der schrittweisen Auswahl. In meiner Antwort hier habe ich schrittweise diskutiert: Algorithmen für die automatische Modellauswahl . In dieser Antwort habe ich mich nicht primär auf die Probleme mit der Inferenz konzentriert, sondern auf die Tatsache, dass die Koeffizienten voreingenommen sind (die Athleten, die es ausprobieren, sind analog zu Variablen). Da die Koeffizienten von ihren wahren Werten abweichen, sollte der Vorhersagefehler außerhalb der Stichprobe ceteris paribus vergrößert werden.
Betrachten Sie den Begriff des Bias-Varianz-Kompromisses . Wenn Sie sich die Genauigkeit Ihres Modells als Varianz der Vorhersagefehler vorstellen (dh MSE: ), ist der erwartete Vorhersagefehler die Summe von drei verschiedenen Varianzquellen :1/n∑(yi−y^i)2
In Anbetracht dieser Ideen ist der Punkt meiner Antwort, die oben verlinkt ist, dass eine große Tendenz hervorgerufen wird. Wenn alle Dinge gleich sind, werden sich die Stichprobenvorhersagen verschlechtern. Leider verringert eine schrittweise Auswahl die Varianz der Schätzung nicht. Im besten Fall ist die Varianz dieselbe, aber es ist sehr wahrscheinlich, dass sich die Varianz auch erheblich verschlechtert (zum Beispiel berichtet @Glen_b, dass nur 15,5% der Fälle die richtigen Variablen waren, die sogar in einer hier diskutierten Simulationsstudie ausgewählt wurden: Warum sind p-Werte nach schrittweiser Auswahl irreführend? ).
quelle
Die genauen Auswirkungen hängen vom Modell und der "Wahrheit" ab, die wir natürlich nicht kennen können. Sie können die Auswirkungen von Schritt für Schritt in einem bestimmten Fall durch Kreuzvalidierung untersuchen oder einen einfachen Zug- und Testansatz verwenden.
quelle