Wie funktioniert die „schrittweise Regression“?

11

Ich habe den folgenden R-Code verwendet, um ein Probit-Modell anzupassen:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Ich will wissen , was macht stepwiseund backward/forwardgenau das tun , und wie die Variablen wählen?

Mahmoud
quelle
7
Einige Kommentare von Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ), warum schrittweise Regression schlecht ist: stata.com/support/faqs/statistics/stepwise-regression-problems
4
Schauen Sie sich neben den Links von BabakP auch diesen Beitrag auf der Website an.
COOLSerdash
3
Ein weiterer Beitrag über Probleme mit schrittweisen (und auch vorwärts und rückwärts) ist ein Artikel, den
Peter Flom - Monica wieder herstellen
@PeterFlom, um auf dieses Papier zu verweisen, habe ich einige Probleme, das richtige Zitat zu verstehen. Könnten Sie es bitte hier auflisten? Vielen Dank.
Doug.Numbers
2
@ doug.numbers Es wurde an verschiedenen Orten vorgestellt und im Rahmen von Konferenzberichten veröffentlicht. Wenn Sie "Flom, Cassell, Stepwise" googeln, erhalten Sie Orte, an denen es präsentiert wurde, und Sie können es formatieren, obwohl Sie Zitate für veröffentlichte Präsentationen formatieren.
Peter Flom - Monica wieder einsetzen

Antworten:

10

Prinzip der schrittweisen Auswahl

  1. Sie passen ein Modell mit allen gewünschten Variablen an. Dies ist Ihr derzeit bestes Modell.
  2. Sie entfernen eine Variable (oder fügen eine hinzu, unter den Variablen, die im aktuell besten Modell nicht verwendet werden), und für jede passen Sie das neue Modell an und vergleichen sie mit jeder über und mit der ursprünglichen, je nach BIC (oder einer anderen) anderes Kriterium wie AIC ). Sie erhalten ein weiteres "aktuell bestes Modell".

Sie wiederholen 2. bis es keine Reduzierung des BIC gibt. Sie haben nur ein lokales Minimum an BIC, was bedeutet, dass Sie möglicherweise nicht das beste Modell unter allen möglichen Auswahlmöglichkeiten von Teilmengen von Variablen erhalten. Aber es gibt normalerweise zu viele von ihnen, so dass dies ein Weg ist, ein bisschen zu optimieren, ohne zu viel Arbeit.

Siehe auch Schrittweise Regression und Modellauswahl auf Wikipedia.


quelle
5

Die schrittweise Regression passt im Wesentlichen zum Regressionsmodell, indem Kovariaten nacheinander basierend auf einem bestimmten Kriterium hinzugefügt / gelöscht werden (in Ihrem obigen Beispiel würde das Kriterium auf dem BIC basieren).

Wenn Sie vorwärts angeben R, sagen Sie, dass Sie mit dem einfachsten Modell (dh einer Kovariate) beginnen und dann jeweils eine Kovariate hinzufügen möchten, wobei nur diejenigen beibehalten werden, die zu einer Verbesserung des Modell-BIC führen.

Wenn Sie rückwärts angeben R, sagen Sie, dass Sie mit dem vollständigen Modell (dh dem Modell mit allen Kovariaten) beginnen und dann nacheinander Kovariaten löschen möchten, was zu einer Verbesserung des BIC führt.

Die schrittweise Regression kann ein sehr gefährliches statistisches Verfahren sein, da es kein optimales Modellauswahlverfahren ist. Die Methode kann zu einer sehr schlechten Modellauswahl führen, da sie Sie nicht vor Problemen wie Mehrfachvergleichen schützt.


quelle
Vielen Dank. Und was ist mit "rückwärts / vorwärts"?
Mahmoud
Was meinst du mit rückwärts / vorwärts?
Eine der Methoden von stpewise () in R ist 'rückwärts / vorwärts'! Ist es eine Kombination von beiden?
Mahmoud
2
Oh sorry, jetzt verstehe ich was du fragst. Ja, wenn Sie beide angeben, gilt dies sowohl vorwärts als auch rückwärts und wählt das mit dem besten Kriterium aus.