Bietet die schrittweise Regression eine voreingenommene Schätzung des R-Quadrats der Bevölkerung?

14

In der Psychologie und anderen Bereichen wird häufig eine Form der schrittweisen Regression angewendet, die Folgendes umfasst:

  1. Sehen Sie sich die verbleibenden Prädiktoren an (es gibt zunächst keine im Modell) und identifizieren Sie den Prädiktor, der zur größten Änderung des R-Quadrats führt.
  2. Wenn der p-Wert der Änderung des r-Quadrats kleiner als Alpha ist (normalerweise 0,05), schließen Sie diesen Prädiktor ein und kehren Sie zu Schritt 1 zurück, andernfalls stoppen Sie.

Dieses Verfahren finden Sie beispielsweise in SPSS .

Das Verfahren wird aus einer Vielzahl von Gründen routinemäßig kritisiert (siehe diese Diskussion auf der Stata-Website mit Referenzen) ).

Insbesondere fasst die Stata-Website mehrere Kommentare von Frank Harrell zusammen. Ich interessiere mich für den Claim:

[schrittweise Regression] ergibt R-Quadrat-Werte, die stark auf hoch eingestellt sind.

Insbesondere konzentriert sich ein Teil meiner aktuellen Forschung auf das Schätzen R-Quadrats der Bevölkerung . Mit dem Populationsquadrat beziehe ich mich auf den Prozentsatz der Varianz, der durch die Populationsdatenerzeugungsgleichung in der Population erklärt wird. Ein Großteil der vorhandenen Literatur, die ich überprüfe, hat schrittweise Regressionsverfahren angewendet, und ich möchte wissen, ob und um wie viel voreingenommen die vorgelegten Schätzungen sind. Insbesondere würde eine typische Studie 30 Prädiktoren, n = 200, einen Alpha-Wert von 0,05 und Schätzungen des R-Quadrats von etwa 0,50 aufweisen.

Was ich weiß:

  • Asymptotisch wäre jeder Prädiktor mit einem Koeffizienten ungleich Null ein statistisch signifikanter Prädiktor, und das r-Quadrat wäre gleich dem angepassten r-Quadrat. Eine asymptotisch schrittweise Regression sollte daher die wahre Regressionsgleichung und das wahre Populations-R-Quadrat abschätzen.
  • Bei kleineren Stichprobengrößen führt das mögliche Weglassen einiger Prädiktoren zu einem kleineren R-Quadrat als bei allen Prädiktoren, die in das Modell aufgenommen wurden. Aber auch die übliche Abweichung von R-Quadrat zu Abtastdaten würde das R-Quadrat erhöhen. Mein naiver Gedanke ist also, dass diese beiden entgegengesetzten Kräfte unter bestimmten Bedingungen möglicherweise zu einem unbefangenen R-Quadrat führen können. Im Allgemeinen hängt die Richtung der Verzerrung von verschiedenen Merkmalen der Daten und den Alpha-Einschlusskriterien ab.
  • Das Festlegen eines strengeren Alpha-Einschlusskriteriums (z. B. 0,01, 0,001 usw.) sollte das erwartete geschätzte r-Quadrat senken, da die Wahrscheinlichkeit, einen Prädiktor in eine Datenerzeugung einzubeziehen, geringer ist.
  • Im Allgemeinen ist das r-Quadrat eine nach oben gerichtete Schätzung des Populations-r-Quadrats, und der Grad dieser Verzerrung steigt mit mehr Prädiktoren und kleineren Stichprobengrößen.

Frage

Also zum Schluss meine Frage:

  • Inwieweit führt das R-Quadrat aus der schrittweisen Regression zu einer verzerrten Schätzung des R-Quadrats der Grundgesamtheit?
  • Inwieweit hängt diese Verzerrung mit der Stichprobengröße, der Anzahl der Prädiktoren, dem Alpha-Einschlusskriterium oder den Eigenschaften der Daten zusammen?
  • Gibt es Referenzen zu diesem Thema?
Jeromy Anglim
quelle
3
Die Hauptversion der von Ihnen zitierten Stata-FAQ war älter als Frank Harrells 2001 erschienene Regressionsmodellierungsstrategie . New York: Springer, das ist die Referenz, von der ich hier ausgehen würde.
Nick Cox
3
Ich empfehle dringend, das Buch von @FrankHarrell zu lesen, das Nick Cox dort erwähnt. Ich ordne meine Doktoranden regelmäßig zu und ehre Studenten, die daraus lesen (insbesondere Kapitel 4). Dass das R ^ 2 bei vorhandener Variablenauswahl verzerrt ist, ist ziemlich einfach zu erkennen, indem viele Datensätze (z. B. n = 100, p = 50) mit einer Populationskorrelation von Null simuliert werden und dann das gewünschte Variablenauswahlverfahren ausgeführt wird es auf.
Glen_b
5
Wie aus den Kommentaren hervorgeht, kann die Simulation zeigen, dass in einer bekannten Situation eine schrittweise Regression überschätzt , und sie kann zeigen, wie viel. Es kann jedoch nicht zeigen, wie hoch die Inflation in einer Situation ist, in der Sie nicht wissen, wie hoch die Bevölkerungswerte sein sollten. Das heißt, die Ergebnisse sind nicht nur schrittweise voreingenommen, sie sind auch in einer Weise voreingenommen, die sehr schwer (wenn nicht unmöglich) abzuschätzen ist. R2
Peter Flom - Wiedereinsetzung von Monica
3
Wenn die Population R ^ 2 Null ist, würde ich denken, dass die Stichprobe R ^ 2 verzerrt ist, auch wenn Sie keine schrittweise Auswahl verwenden. Ich vermute (bin mir aber nicht sicher), dass es auch voreingenommen wäre, wenn die Population R ^ 2 ungleich Null ist.
mark999
2
Zu sagen, dass die Grundgesamtheit ein und dass wir eine Form der Modellauswahl durchführen, bedeutet, bestimmte Annahmen über die Stichprobensituation zu treffen - dass es ein "wahres" Modell gibt und dass es eine bestimmte Größe hat, die es gibt Es müssen mehr Variablen berücksichtigt werden als im wahren Modell (zumindest möglicherweise mehr) und so weiter. Ich denke, es gibt sogar eine Implikation, dass nicht alle Variablen gleich stark mit der Antwort zusammenhängen. Aus diesem Grund denke ich, dass alle Simulationen, die wir durchführen, um die Eigenschaften zu untersuchen, alle Auswirkungen berücksichtigen müssen, die sich daraus ergeben. R2
Glen_b

Antworten:

5

R2R2R2

Frank Harrell
quelle
Insbesondere, wenn die Anzahl der möglichen Prädiktoren die Anzahl der Beobachtungen übersteigt!
Alexis
3

Überblick

R2ρ2 , kann Folgendes gesagt werden: Dies gilt zwar für einige Kombinationen aus Datenerzeugungsprozess, Stichprobengröße, Satz von Prädiktoren und p-Wert-Kriterium für die Prädiktoreingabe, es ist jedoch nicht wahr auf alle Fälle.

R2ρ2R2ρ2R2R2R2ρ2

R2

R2ρ2ρ2

Simulation

Die folgende Simulation hat vier unkorrelierte Prädiktoren, bei denen das r-Quadrat der Bevölkerung 40% beträgt. Zwei der Prädiktoren erklären jeweils 20% und die anderen beiden Prädiktoren erklären 0%. Die Simulation generiert 1000 Datensätze und schätzt das schrittweise Regressionsquadrat als Prozentsatz für jeden Datensatz.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

Der folgende Code gibt das r-Quadrat mit einem Buchstaben für die Eingabe von .01, .001, .0001 und .00001 zurück.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

Die folgenden Ergebnisse geben die Tendenz für jedes der fünf Alpha-Einträge an. Beachten Sie, dass ich das r-Quadrat mit 100 multipliziert habe, um die Unterschiede besser erkennen zu können.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

Die Ergebnisse deuten darauf hin, dass Alpha-Werte bei Einträgen von 0,01 und 0,001 zu einer positiven Verzerrung und Alpha-Werte bei Einträgen von 0,0001 und 0,00001 zu einer negativen Verzerrung führen. Vermutlich würde ein Alpha-Wert um 0,0005 zu einer stufenweisen Regression führen.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

Die wichtigste Schlussfolgerung, die ich daraus ziehe, ist, dass die schrittweise Regression nicht von Natur aus in eine bestimmte Richtung voreingenommen ist. Das heißt, es wird zumindest für alle außer einem p-Wert des Prädiktoreingangs etwas voreingenommen sein. Ich gehe davon aus, dass wir in der realen Welt den Prozess der Datengenerierung nicht kennen. Ich stelle mir jedoch eine detailliertere Untersuchung vor, wie diese Verzerrung über n, Alpha des Eintritts, Datenerzeugungsprozesse und schrittweise Regressionsverfahren (z. B. einschließlich Rückwärtsdurchlauf) wesentlich zum Verständnis einer solchen Verzerrung beitragen könnte.

Verweise

  • Harrell, FE (2001). Regressionsmodellierungsstrategien: mit Anwendungen auf lineare Modelle, logistische Regression und Überlebensanalyse. Springer.
Jeromy Anglim
quelle
Es ist immer noch voreingenommen (würde ich sagen), Sie haben gerade die Voreingenommenheit viel reduziert.
Jeremy Miles
@ JeremyMiles Ja. Aber es ist nicht von Natur aus in eine bestimmte Richtung voreingenommen.
Jeromy Anglim
Es würde mich sehr interessieren, wie @FrankHarrell das aufnimmt.
Glen_b
1
+1 Gute Arbeit! Aber sollte Ihr Fazit nicht anders sein? Lassen "SW(p)"Schätzung sein von R2 Verwenden der schrittweisen Regression mit p-to-Enter von p. Sie haben zugestimmt (und teilweise nachgewiesen), dass für eine bestimmte Population mindestens eine vorhanden istp für welche SW(p)ist unvoreingenommen. Gut: aber wie wählt man das aus?p? Wenn Sie nicht wissen, was es ist, dann scheinen Sie wieder da zu sein, wo Sie angefangen haben, aber diesmal wissen Sie dasSW(p) ist "von Natur aus" voreingenommen, es sei denn, Sie haben eine glückliche Vermutung angestellt p.
Whuber
1
@whuber Ich habe den letzten Absatz optimiert, um hoffentlich ein paar der Punkte, die Sie erwähnen, klarer zu machen.
Jeromy Anglim