Mir sind die Probleme der schrittweisen / vorwärts / rückwärts Auswahl in Regressionsmodellen gut bekannt. Es gibt zahlreiche Fälle, in denen Forscher die Methoden anprangern und auf bessere Alternativen hinweisen. Ich war gespannt, ob es Geschichten gibt, bei denen eine statistische Analyse vorliegt:
- hat schrittweise Regression verwendet;
- machte einige wichtige Schlussfolgerungen auf der Grundlage des endgültigen Modells
- Die Schlussfolgerung war falsch und führte zu negativen Konsequenzen für den Einzelnen, seine Forschung oder seine Organisation
Wenn schrittweise Methoden schlecht sind, sollte dies in der "realen Welt" Konsequenzen haben.
regression
stepwise-regression
history
Wahrscheinlichkeitslogik
quelle
quelle
Antworten:
Es wird mehr als eine Frage gestellt. Die engste Frage ist nach einem Beispiel dafür, wann schrittweise Regression Schaden angerichtet hat, weil sie schrittweise durchgeführt wurde. Dies ist natürlich wahr, kann aber nur eindeutig festgestellt werden, wenn die für die schrittweise Regression verwendeten Daten auch veröffentlicht werden, und jemand analysiert sie erneut und veröffentlicht eine von Fachleuten überprüfte Korrektur mit dem Widerruf der veröffentlichten primären Autoren. Anklagen in einem anderen Kontext zu erheben, birgt das Risiko einer gerichtlichen Verfolgung. Wenn wir einen anderen Datensatz verwenden, können wir vermuten, dass ein Fehler gemacht wurde. "Statistiken beweisen jedoch nie etwas", und wir können nicht feststellen, dass es sich um einen Fehler handelt gemacht; "zweifelsfrei".
Tatsächlich erhält man häufig unterschiedliche Ergebnisse, je nachdem, ob eine Regressionsgleichung schrittweise eliminiert oder schrittweise aufgebaut wird, was uns nahe legt, dass keiner der beiden Ansätze ausreichend korrekt ist, um ihre Verwendung zu empfehlen. Es ist klar, dass noch etwas anderes im Gange ist, und das bringt uns zu einer umfassenderen Frage, die ebenfalls oben gestellt wurde, jedoch in Kugelform: "Was sind die Probleme mit schrittweiser Regression überhaupt? Das ist die nützlichere Frage, die zu beantworten ist und die es gibt Ein weiterer Vorteil ist, dass ich für die Beantwortung keine Klage gegen mich einreichen lassen werde.
Für schrittweise MLR richtig zu machen, bedeutet, 1) physikalisch korrekte Einheiten (siehe unten) und 2) geeignete Variablentransformation für beste Korrelationen und Fehlerverteilungstypen (für Homoskedastizität und Physikalität) zu verwenden und 3) alle Permutationen variabler Kombinationen zu verwenden, nicht schrittweise, alle von ihnen , und 4) , wenn man führt eine erschöpfende Regressionsdiagnose dann vermeidet man hohe VIF (Kollinearität) variable Kombinationen fehlen , die sonst wäre irreführend, dann ist die Belohnung besser Regression ist.
Wie oben für Nr. 1 versprochen, untersuchen wir als nächstes die richtigen Einheiten für ein physikalisches System. Da gute Ergebnisse der Regression von der richtigen Behandlung von Variablen abhängen, müssen wir die üblichen Dimensionen physikalischer Einheiten berücksichtigen und unsere Gleichungen angemessen ausbalancieren. Auch für biologische Anwendungen ist eine Kenntnis und Berücksichtigung der Dimensionalität der allometrischen Skalierung erforderlich.
Bitte lesen Sie dieses Beispiel einer physikalischen Untersuchung eines biologischen Systems, um herauszufinden, wie Sie das Gleichgewicht von Einheiten auf die Biologie ausweiten können. In dieser Veröffentlichung wurden die obigen Schritte 1) bis 4) befolgt und eine beste Formel wurde unter Verwendung einer umfassenden Regressionsanalyse gefunden, nämlich , wobei die glomeruläre Filtrationsrate ist , ein Katabolismus-Marker, bei dem die Einheiten unter Verwendung fraktaler Geometrie so verstanden werden, dass , weight ein vierdimensionales fraktales geometrisches Konstrukt ist und V, volume, als euklidische oder dreidimensionale Variable bezeichnet wird. Dann istG FR = k ∗ W1 / 4V2 / 3 G FR W 1 = 1443+ 23 . Damit ist die Rezeptur maßhaltig mit dem Stoffwechsel vereinbar. Das ist keine einfache Aussage. Bedenken Sie, dass 1) es im Allgemeinen nicht gewürdigt wird (unbekannt), dass ein Marker für den Stoffwechsel ist. 2) Fraktale Geometrie wird nur selten gelehrt und die physikalische Interpretation der vorgestellten Formel ist selbst für jemanden mit mathematischer Ausbildung schwer zu verstehen.GFR
quelle