Warum sind diese Regressionsanova-Tabellen identisch?

11

Ich habe zwei Regressionen des gleichen Y und des dreistufigen X. Insgesamt n = 15, mit n = 5 in jeder Gruppe oder Stufe von X. Die erste Regression behandelt das X als kategorisch und weist den Stufen 2 und 3 mit Stufe Indikatorvariablen zu eine davon ist die Referenz. Indikatoren / Dummies sind wie folgt: X1 = 1, wenn Level = 2, 0, wenn sonst X2 = 1, wenn Level = 3, 0, wenn sonst

Infolgedessen sieht mein angepasstes Modell ungefähr so ​​aus: y = b0 + b1 (x1) + b2 (x2)

Ich führe die Regression aus und die Ausgabe enthält diese Varianzanalyse-Tabelle:

Tabelle

Der Rest der Ausgabe ist hier irrelevant.

Okay, jetzt führe ich eine andere Regression für dieselben Daten durch. Ich lasse die kategoriale Analyse fallen und behandle X als stetig, aber ich füge der Gleichung eine Variable hinzu: X ^ 2, das Quadrat von X. Jetzt habe ich das folgende Modell: y = b0 + b1 (X) + b2 (X) ^ 2

Wenn ich es ausführe, spuckt es genau die Varianzanalyse-Tabelle aus, die ich Ihnen oben gezeigt habe. Warum führen diese beiden Regressionen zu denselben Tabellen?

[Der Verdienst für dieses kleine Rätsel geht an Thomas Belin in der Abteilung für Biostatistik der University of California in Los Angeles.]

Logjammin
quelle
Ich denke, Sie müssen uns den Code zeigen, der "die Regression ausführt", und möglicherweise den Datenschritt (sieht für mich wie eine SAS-Ausgabe aus), mit dem Sie die Datentabelle erstellen, mit der Sie arbeiten.
Brad S.
1
@Brad Ich denke nicht, dass das notwendig ist: Die Situation ist klar beschrieben und es werden keine weiteren Informationen benötigt, um zu erklären, was los ist.
whuber
@whuber Vielleicht. Ich denke, wenn du es sagst, aber es fühlt sich für mich wie ein Programmierfehler an. Ich freue mich auf Ihre Antwort.
Brad S.
1
@Brad Kein Programmierfehler: Ich habe meine Erklärung gepostet. Es ist eine gute Frage mit echtem statistischen Interesse (und Anwendbarkeit).
whuber
Hey Brad, es ist eigentlich ein Problem - die Situation wurde mir ähnlich gegeben, wie ich es euch gegeben habe, und die Frage stellte sich irgendwie genauso: "Warum sollten sie gleich sein?". Es ist nur so, wie ich es darstelle: zwei Modelle, dieselben ANOVA-Tabellen, der Rest der Ausgaben nicht einmal angegeben (ich hätte das klarstellen sollen, anstatt "irrelevant" zu sagen).
Logjammin

Antworten:

22

In Matrixbegriffen haben Ihre Modelle die übliche Form . E[Y]=Xβ

Das erste Modell repräsentiert ein Element der ersten Gruppe durch die Zeile in X , entsprechend dem Achsenabschnitt, dem Indikator für Kategorie 2 und dem Indikator für Kategorie 3. Es repräsentiert ein Element der zweiten Gruppe durch die Zeile ( 1 , 1 , 0 )(1,0,0)X(1,1,0) und ein Element der dritten Gruppe durch .(1,0,1)

Das zweite Modell verwendet stattdessen die Zeilen , ( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) und ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 ) .(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Nennen wir die resultierenden Modellmatrizen und X 2 . Sie sind einfach miteinander verbunden: Die Spalten der einen sind lineare Kombinationen der Spalten der anderen. Zum Beispiel lassenX1X2

V=(111013028).

Dann seit

(100110101)V=(111124139),

es folgt dem

X1V=X2.

Die Modelle selbst sind daher verwandt mit

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

Das heißt, die Koeffizienten für das zweite Modell müssen mit denen des ersten Modells über in Beziehung gesetzt werdenβ2

β1=Vβ2.

Die gleiche Beziehung gilt daher für ihre Schätzungen der kleinsten Quadrate. Dies zeigt, dass die Modelle identische Passformen haben : Sie drücken sie lediglich unterschiedlich aus.

Da die ersten Spalten der beiden Modellmatrizen identisch sind, ändert sich keine ANOVA-Tabelle, die die Varianz zwischen der ersten Spalte und den verbleibenden Spalten zerlegt. Eine ANOVA-Tabelle, die zwischen der zweiten und dritten Spalte unterscheidet, hängt jedoch davon ab, wie die Daten codiert werden.

Geometrisch (und etwas abstrakter) stimmt der dreidimensionale Unterraum von , der durch die Spalten von X 1 erzeugt wird, mit dem Unterraum überein, der durch die Spalten von X 2 erzeugt wird . Daher haben die Modelle identische Passformen. Die Anpassungen werden nur deshalb unterschiedlich ausgedrückt, weil die Räume mit zwei verschiedenen Basen beschrieben werden.R15X1X2


Zur Veranschaulichung finden Sie hier Daten wie Ihre (jedoch mit unterschiedlichen Antworten) und die entsprechenden Analysen, wie sie in generiert wurden R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Passen Sie die beiden Modelle an:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Zeigen Sie ihre ANOVA-Tabellen an:

anova(fit.1)
anova(fit.2)

Die Ausgabe für das erste Modell ist

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Für das zweite Modell ist es

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Sie können sehen, dass die verbleibenden Quadratsummen gleich sind. Durch Hinzufügen der ersten beiden Zeilen im zweiten Modell erhalten Sie den gleichen DF und die gleiche Quadratsumme, aus der der gleiche Mittelwert, der gleiche F-Wert und der gleiche p-Wert berechnet werden können.

Vergleichen wir abschließend die Koeffizientenschätzungen.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Die Ausgabe ist

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Die Passungen sind wirklich die gleichen wie behauptet.

whuber
quelle
6
Heiliger Rauch, Mann. Ich habe noch nie eine gründlichere Antwort erhalten, als ich dem Internet eine Frage gestellt habe. Vielen Dank, x1000, im Ernst.
Logjammin
Willkommen auf unserer Webseite! Ich hoffe, Sie nutzen es weiter und freuen sich auf Ihre Beiträge.
whuber
1
Ich habe heute etwas gelernt! (positiv bewertet)
Brad S.
Erstaunliche Antwort. Verblüfft!
Kedarps
5

Kurz gesagt, beide Modelle sind in dem Sinne gesättigt, dass sie eindeutige empirische Vorhersagen der Reaktion auf allen drei Ebenen von X liefern. Es kann für die Codierung der Faktorvariablen in Modell 1 offensichtlich sein. Für einen quadratischen Trend ist es interessant festzustellen, dass a Die quadratische Formel kann 3 beliebige Punkte interpolieren. Während die Kontraste unterschiedlich sind, liefert in beiden Modellen der globale Test gegen eine Null eines Intercept-Only-Modells identische Schlussfolgerungen.

AdamO
quelle