In der Psychologie und anderen Bereichen wird häufig eine Form der schrittweisen Regression angewendet, die Folgendes umfasst:
- Sehen Sie sich die verbleibenden Prädiktoren an (es gibt zunächst keine im Modell) und identifizieren Sie den Prädiktor, der zur größten Änderung des R-Quadrats führt.
- Wenn der p-Wert der Änderung des r-Quadrats kleiner als Alpha ist (normalerweise 0,05), schließen Sie diesen Prädiktor ein und kehren Sie zu Schritt 1 zurück, andernfalls stoppen Sie.
Dieses Verfahren finden Sie beispielsweise in SPSS .
Das Verfahren wird aus einer Vielzahl von Gründen routinemäßig kritisiert (siehe diese Diskussion auf der Stata-Website mit Referenzen) ).
Insbesondere fasst die Stata-Website mehrere Kommentare von Frank Harrell zusammen. Ich interessiere mich für den Claim:
[schrittweise Regression] ergibt R-Quadrat-Werte, die stark auf hoch eingestellt sind.
Insbesondere konzentriert sich ein Teil meiner aktuellen Forschung auf das Schätzen R-Quadrats der Bevölkerung . Mit dem Populationsquadrat beziehe ich mich auf den Prozentsatz der Varianz, der durch die Populationsdatenerzeugungsgleichung in der Population erklärt wird. Ein Großteil der vorhandenen Literatur, die ich überprüfe, hat schrittweise Regressionsverfahren angewendet, und ich möchte wissen, ob und um wie viel voreingenommen die vorgelegten Schätzungen sind. Insbesondere würde eine typische Studie 30 Prädiktoren, n = 200, einen Alpha-Wert von 0,05 und Schätzungen des R-Quadrats von etwa 0,50 aufweisen.
Was ich weiß:
- Asymptotisch wäre jeder Prädiktor mit einem Koeffizienten ungleich Null ein statistisch signifikanter Prädiktor, und das r-Quadrat wäre gleich dem angepassten r-Quadrat. Eine asymptotisch schrittweise Regression sollte daher die wahre Regressionsgleichung und das wahre Populations-R-Quadrat abschätzen.
- Bei kleineren Stichprobengrößen führt das mögliche Weglassen einiger Prädiktoren zu einem kleineren R-Quadrat als bei allen Prädiktoren, die in das Modell aufgenommen wurden. Aber auch die übliche Abweichung von R-Quadrat zu Abtastdaten würde das R-Quadrat erhöhen. Mein naiver Gedanke ist also, dass diese beiden entgegengesetzten Kräfte unter bestimmten Bedingungen möglicherweise zu einem unbefangenen R-Quadrat führen können. Im Allgemeinen hängt die Richtung der Verzerrung von verschiedenen Merkmalen der Daten und den Alpha-Einschlusskriterien ab.
- Das Festlegen eines strengeren Alpha-Einschlusskriteriums (z. B. 0,01, 0,001 usw.) sollte das erwartete geschätzte r-Quadrat senken, da die Wahrscheinlichkeit, einen Prädiktor in eine Datenerzeugung einzubeziehen, geringer ist.
- Im Allgemeinen ist das r-Quadrat eine nach oben gerichtete Schätzung des Populations-r-Quadrats, und der Grad dieser Verzerrung steigt mit mehr Prädiktoren und kleineren Stichprobengrößen.
Frage
Also zum Schluss meine Frage:
- Inwieweit führt das R-Quadrat aus der schrittweisen Regression zu einer verzerrten Schätzung des R-Quadrats der Grundgesamtheit?
- Inwieweit hängt diese Verzerrung mit der Stichprobengröße, der Anzahl der Prädiktoren, dem Alpha-Einschlusskriterium oder den Eigenschaften der Daten zusammen?
- Gibt es Referenzen zu diesem Thema?
quelle
Antworten:
quelle
Überblick
Simulation
Die folgende Simulation hat vier unkorrelierte Prädiktoren, bei denen das r-Quadrat der Bevölkerung 40% beträgt. Zwei der Prädiktoren erklären jeweils 20% und die anderen beiden Prädiktoren erklären 0%. Die Simulation generiert 1000 Datensätze und schätzt das schrittweise Regressionsquadrat als Prozentsatz für jeden Datensatz.
Der folgende Code gibt das r-Quadrat mit einem Buchstaben für die Eingabe von .01, .001, .0001 und .00001 zurück.
Die folgenden Ergebnisse geben die Tendenz für jedes der fünf Alpha-Einträge an. Beachten Sie, dass ich das r-Quadrat mit 100 multipliziert habe, um die Unterschiede besser erkennen zu können.
Die Ergebnisse deuten darauf hin, dass Alpha-Werte bei Einträgen von 0,01 und 0,001 zu einer positiven Verzerrung und Alpha-Werte bei Einträgen von 0,0001 und 0,00001 zu einer negativen Verzerrung führen. Vermutlich würde ein Alpha-Wert um 0,0005 zu einer stufenweisen Regression führen.
Die wichtigste Schlussfolgerung, die ich daraus ziehe, ist, dass die schrittweise Regression nicht von Natur aus in eine bestimmte Richtung voreingenommen ist. Das heißt, es wird zumindest für alle außer einem p-Wert des Prädiktoreingangs etwas voreingenommen sein. Ich gehe davon aus, dass wir in der realen Welt den Prozess der Datengenerierung nicht kennen. Ich stelle mir jedoch eine detailliertere Untersuchung vor, wie diese Verzerrung über n, Alpha des Eintritts, Datenerzeugungsprozesse und schrittweise Regressionsverfahren (z. B. einschließlich Rückwärtsdurchlauf) wesentlich zum Verständnis einer solchen Verzerrung beitragen könnte.
Verweise
quelle