Brüllen durch schrittweise Regression

20

Mir sind die Probleme der schrittweisen / vorwärts / rückwärts Auswahl in Regressionsmodellen gut bekannt. Es gibt zahlreiche Fälle, in denen Forscher die Methoden anprangern und auf bessere Alternativen hinweisen. Ich war gespannt, ob es Geschichten gibt, bei denen eine statistische Analyse vorliegt:

  • hat schrittweise Regression verwendet;
  • machte einige wichtige Schlussfolgerungen auf der Grundlage des endgültigen Modells
  • Die Schlussfolgerung war falsch und führte zu negativen Konsequenzen für den Einzelnen, seine Forschung oder seine Organisation

Wenn schrittweise Methoden schlecht sind, sollte dies in der "realen Welt" Konsequenzen haben.

Wahrscheinlichkeitslogik
quelle
2
Wenn Sie solche Geschichten nicht finden, kann dies daran liegen, dass die schrittweise Regression hauptsächlich in der Grundlagenforschung verwendet wird (oder so nehme ich an). Grundlagenforscher geraten normalerweise nicht in Schwierigkeiten, weil sie sich geirrt haben, solange sie die Daten oder ähnliches nicht gefälscht haben.
Kodiologist
3
Es wird viel in der Industrie und im Klassenzimmer verwendet. In der Forschung würden die Autoren wahrscheinlich nicht offenlegen, dass sie es verwendet haben. In der Industrie sind die beiden Hauptgründe, dass a) diejenigen, die dies tun, nicht in der Forschung ausgebildet wurden, z.
Aksakal
@Aksakal Von Anfang an nicht lernen, aber trotzdem ein Schafsfell zu bekommen, ist das Problem, nicht die verstrichene Zeit. Exemplis gratis , ich. Ich habe einen Statistikkurs um 1971 absolviert und zum ersten Mal Statistiken in einer Veröffentlichung um 2006 verwendet.
Carl,

Antworten:

1

Es wird mehr als eine Frage gestellt. Die engste Frage ist nach einem Beispiel dafür, wann schrittweise Regression Schaden angerichtet hat, weil sie schrittweise durchgeführt wurde. Dies ist natürlich wahr, kann aber nur eindeutig festgestellt werden, wenn die für die schrittweise Regression verwendeten Daten auch veröffentlicht werden, und jemand analysiert sie erneut und veröffentlicht eine von Fachleuten überprüfte Korrektur mit dem Widerruf der veröffentlichten primären Autoren. Anklagen in einem anderen Kontext zu erheben, birgt das Risiko einer gerichtlichen Verfolgung. Wenn wir einen anderen Datensatz verwenden, können wir vermuten, dass ein Fehler gemacht wurde. "Statistiken beweisen jedoch nie etwas", und wir können nicht feststellen, dass es sich um einen Fehler handelt gemacht; "zweifelsfrei".

Tatsächlich erhält man häufig unterschiedliche Ergebnisse, je nachdem, ob eine Regressionsgleichung schrittweise eliminiert oder schrittweise aufgebaut wird, was uns nahe legt, dass keiner der beiden Ansätze ausreichend korrekt ist, um ihre Verwendung zu empfehlen. Es ist klar, dass noch etwas anderes im Gange ist, und das bringt uns zu einer umfassenderen Frage, die ebenfalls oben gestellt wurde, jedoch in Kugelform: "Was sind die Probleme mit schrittweiser Regression überhaupt? Das ist die nützlichere Frage, die zu beantworten ist und die es gibt Ein weiterer Vorteil ist, dass ich für die Beantwortung keine Klage gegen mich einreichen lassen werde.

Für schrittweise MLR richtig zu machen, bedeutet, 1) physikalisch korrekte Einheiten (siehe unten) und 2) geeignete Variablentransformation für beste Korrelationen und Fehlerverteilungstypen (für Homoskedastizität und Physikalität) zu verwenden und 3) alle Permutationen variabler Kombinationen zu verwenden, nicht schrittweise, alle von ihnen , und 4) , wenn man führt eine erschöpfende Regressionsdiagnose dann vermeidet man hohe VIF (Kollinearität) variable Kombinationen fehlen , die sonst wäre irreführend, dann ist die Belohnung besser Regression ist.

Wie oben für Nr. 1 versprochen, untersuchen wir als nächstes die richtigen Einheiten für ein physikalisches System. Da gute Ergebnisse der Regression von der richtigen Behandlung von Variablen abhängen, müssen wir die üblichen Dimensionen physikalischer Einheiten berücksichtigen und unsere Gleichungen angemessen ausbalancieren. Auch für biologische Anwendungen ist eine Kenntnis und Berücksichtigung der Dimensionalität der allometrischen Skalierung erforderlich.

Bitte lesen Sie dieses Beispiel einer physikalischen Untersuchung eines biologischen Systems, um herauszufinden, wie Sie das Gleichgewicht von Einheiten auf die Biologie ausweiten können. In dieser Veröffentlichung wurden die obigen Schritte 1) bis 4) befolgt und eine beste Formel wurde unter Verwendung einer umfassenden Regressionsanalyse gefunden, nämlich , wobei die glomeruläre Filtrationsrate ist , ein Katabolismus-Marker, bei dem die Einheiten unter Verwendung fraktaler Geometrie so verstanden werden, dass , weight ein vierdimensionales fraktales geometrisches Konstrukt ist und V, volume, als euklidische oder dreidimensionale Variable bezeichnet wird. Dann istGFR=kW1/4V2/3GFRW1=1443+23. Damit ist die Rezeptur maßhaltig mit dem Stoffwechsel vereinbar. Das ist keine einfache Aussage. Bedenken Sie, dass 1) es im Allgemeinen nicht gewürdigt wird (unbekannt), dass ein Marker für den Stoffwechsel ist. 2) Fraktale Geometrie wird nur selten gelehrt und die physikalische Interpretation der vorgestellten Formel ist selbst für jemanden mit mathematischer Ausbildung schwer zu verstehen.GFR

Carl
quelle
2
Dies scheint eher ein Problem mit der Regression im Allgemeinen als mit der schrittweisen Regression im Speziellen zu beschreiben.
Unfallstatistiker
2
Ja, dies sind Aspekte der Regression, die allgemein zu berücksichtigen sind. Wenn ich jedoch richtig verstehe, woher die Frage kommt, ist dies darauf zurückzuführen, dass schrittweise Regressionen oft zugunsten von LASSO angeprangert werden, die nicht auf die Bedenken eingehen, die Sie hier geäußert haben.
Unfallstatistiker
4
Ich schätze Ihre Offenheit und Ihren guten Willen in dieser Angelegenheit, Carl. Ich werde nicht leugnen, dass die Abstimmung ihre Probleme hat. Ich kenne die einzige Möglichkeit, das Voting für einen Beitrag effektiv zu ändern, indem ich die Antwort ändere - entweder um sie technisch zu verbessern, zu erweitern oder um die Ideen anders zu kommunizieren - und selbst dann gibt es keine Garantie dafür, dass sie die gewünschte Antwort erhalten (oder überhaupt irgendeine Antwort!). Manchmal bringen respektvolle Bemühungen, die Downvoter zu verstehen , Informationen hervor, die es jedem erleichtern, solche Bemühungen zur Verbesserung eines Posts zu würdigen (und zu verbessern).
whuber
3
@Carl Ich denke, wenn Sie regelmäßig Abwertungen erhalten, sollten Sie zunächst überlegen, wie Sie Ihre Beiträge verbessern können (und häufig haben Sie Kommentare darunter, die Verbesserungen vorschlagen). Selbst wenn ich mit einem Kommentator nicht einverstanden bin, stellt sich heraus, dass sie häufig Probleme aufwerfen, die ohnehin zu einer besseren Antwort führen. Ich werde sagen, dass ich regelmäßig Probleme mit Ihren Antworten bemerke, die mich beinahe dazu bewegen würden, selbst dagegen zu stimmen. Wo ich Zeit dazu habe, versuche ich einen Kommentar zu hinterlassen.
Glen_b -Reinstate Monica
3
Beachten Sie, dass viele der Probleme der schrittweisen Regression - wie z. B. Probleme mit Schätzwerten, die von 0 abweichen, Standardfehlern, die zu 0 tendieren, nominellen Fehlerraten des Typs I, die viel niedriger als die tatsächlichen sind, und eine Vielzahl anderer Probleme bei allen Teilmengen - immer noch vorhanden sind. - in der Tat handelt es sich um ein Problem bei nahezu jeder Form der Optimierung (Kapitel 4 der Regressionsmodellierungsstrategien von Frank Harrell ist eine nützliche Referenz). Das Schrumpfen / Regularisieren kann einige dieser Probleme mindern (insbesondere die Tendenz der Auswahl, Schätzungen nach außen zu verzerren), und eine Bewertung außerhalb der Stichprobe ist für viele von ihnen ein wichtiges Instrument.
Glen_b