In der Vergangenheit war die schrittweise Regression in vielen biomedizinischen Veröffentlichungen überstrapaziert. Dies scheint sich jedoch durch eine bessere Aufklärung der zahlreichen Themen zu verbessern. Viele ältere Rezensenten fragen jedoch noch danach. Unter welchen Umständen spielt die schrittweise Regression eine Rolle und sollte gegebenenfalls angewendet werden?
regression
multiple-regression
feature-selection
model-selection
stepwise-regression
bobmcpop
quelle
quelle
Antworten:
Mir sind keine Situationen bekannt, in denen eine schrittweise Regression der bevorzugte Ansatz wäre. Es kann in Ordnung sein ( vor allem in seinem Step-down - Version aus dem vollen Modell ausgehend) mit Bootstrapping des gesamten schrittweisen Prozesses auf extrem große Datenmengen mit . Hierbei ist n die Anzahl der Beobachtungen in einem kontinuierlichen Ergebnis (oder die Anzahl der Datensätze mit einem Ereignis in der Überlebensanalyse). P ist die Anzahl der Kandidaten-Prädiktoren einschließlich aller berücksichtigten Interaktionen - dh wenn selbst kleine Effekte sehr deutlich werden und dies keine Rolle spielt viel wie Sie Ihr Modell bauen (das würde bedeuten, dass n viel größer als p wären > > p n p n p als um wesentlich mehr als der manchmal angegebene Faktor 20).
Natürlich ist der Grund, warum die meisten Menschen versucht sind, so etwas wie schrittweise Regression zu tun,
Dh eine Methode wie die schrittweise Regression wäre (wenn sie gute Betriebseigenschaften hätte) in solchen Situationen besonders attraktiv, wenn sie keine guten Betriebseigenschaften hätte.
quelle
Zwei Fälle, in denen ich eine schrittweise Regression nicht ablehnen würde, sind:
In diesen beiden sehr wichtigen Anwendungsfällen sind Sie nicht so besorgt über die traditionelle statistische Inferenz, sodass die Tatsache, dass p-Werte usw. nicht mehr gültig sind, von geringer Bedeutung ist.
Zum Beispiel, wenn ein Forschungsbericht sagte: "In unserer Pilotstudie haben wir schrittweise Regression verwendet, um 3 interessante Variablen von 1000 zu finden. In einer Folgestudie mit neuen Daten haben wir gezeigt, dass diese 3 interessanten Variablen stark mit dem korrelieren Ergebnis des Interesses ", hätte ich kein Problem mit der Verwendung der schrittweisen Regression. In ähnlicher Weise ist "Wir haben schrittweise Regression verwendet, um ein Vorhersagemodell zu erstellen. Dieses vorgeformte alternative Modell X in unserem Hold-out-Datensatz in Bezug auf MSE" auch für mich völlig in Ordnung.
Um es klar auszudrücken, ich sage nicht, dass eine schrittweise Regression der beste Weg ist, um diese Probleme anzugehen. Aber es ist einfach und kann Ihnen zufriedenstellende Lösungen geben.
BEARBEITEN:
In den Kommentaren wird die Frage aufgeworfen, ob ein schrittweiser AIC tatsächlich für die Vorhersage nützlich sein kann. Hier ist eine Simulation, die zeigt, dass sie mit allen Kovariaten viel besser abschneidet als mit der linearen Regression, und mit fast ebenso elastischen Netzen, deren Strafe durch Kreuzvalidierung ausgewählt wurde.
Ich würde diese Simulation nicht als das Ende der Diskussion ansehen. Es ist nicht allzu schwer, ein Szenario zu entwickeln, in dem sich ein schrittweiser AIC schlechter entwickeln wird. Aber es ist wirklich kein unvernünftiges Szenario und genau die Art von Situation, für die elastische Netze ausgelegt sind (hohe Korrelation von Kovariaten mit sehr wenigen großen Effekten)!
Randnotiz:
Ich bin aus vielen, vielen Gründen wirklich kein Fan von schrittweiser Regression, daher fühle ich mich etwas unwohl, wenn ich diese Haltung einnehme, um sie zu verteidigen. Aber ich denke nur, dass es wichtig ist, genau zu sagen, was mir daran nicht gefällt.
quelle