Gibt es eine elegante / aufschlussreiche Möglichkeit, diese lineare Regressionsidentität für mehrere zu verstehen ?

9

Bei der linearen Regression bin ich auf ein erfreuliches Ergebnis gestoßen, wenn wir zum Modell passen

E[Y]=β1X1+β2X2+c,

Wenn wir dann die Daten , und standardisieren und ,YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Dies fühlt sich für mich wie eine 2-Variablen-Version von für Regression an, was erfreulich ist.R2=Cor(Y,X)2y=mx+c

Aber der einzige Beweis, den ich kenne, ist ohnehin nicht konstruktiv oder aufschlussreich (siehe unten), und dennoch scheint es leicht verständlich zu sein, ihn anzusehen.

Beispielgedanken:

  • Die Parameter und geben uns den 'Anteil' von und in , und so nehmen wir die jeweiligen Anteile ihrer Korrelationen ...β 2 X 1 X 2 Y.β1β2X1X2Y
  • Die s sind Teilkorrelationen, ist die quadratische Mehrfachkorrelation ... Korrelationen multipliziert mit Teilkorrelationen ...R 2βR2
  • Wenn wir die orthogonalisieren zuerst , dann wird s sein ... ist dieses Ergebnis einer gewissen geometrischen Sinn?C o v / V a rβCov/Var

Keiner dieser Fäden scheint für mich irgendwohin zu führen. Kann jemand eine klare Erklärung geben, wie man dieses Ergebnis versteht.


Unbefriedigender Beweis

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

und

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.

Korone
quelle
Sie müssen standardisierte Variablen verwenden, da sonst nicht garantiert wird, dass Ihre Formel für zwischen und . Obwohl diese Annahme in Ihrem Beweis zum Ausdruck kommt, wäre es hilfreich, sie zu Beginn explizit zu machen. Ich bin verwirrt darüber, was Sie auch wirklich tun: Ihr eindeutig eine Funktion des Modells allein - hat nichts mit den Daten zu tun - und Sie erwähnen zunächst, dass Sie das Modell an etwas "angepasst" haben . 0 1 R 2R201R2
whuber
Gilt Ihr Top-Ergebnis nicht nur, wenn X1 und X2 perfekt unkorreliert sind?
Gung - Reinstate Monica
@gung Ich glaube nicht - der Beweis im Grunde scheint zu sagen, dass es trotzdem funktioniert. Dieses Ergebnis überrascht mich auch und möchte daher einen "klaren Beweis für das Verständnis"
Korone,
@whuber Ich bin mir nicht sicher, was du mit "Funktion des Modells allein" meinst? Ich meine einfach das für einfaches OLS mit zwei Prädikatorvariablen. Das heißt, dies ist die 2-variable Version vonR 2 = C o r ( Y , X ) 2R2R2=Cor(Y,X)2
Korone
Ich kann nicht sagen, ob Ihr die Parameter oder die Schätzungen sind. βi
whuber

Antworten:

9

Die Hutmatrix ist idempotent.

(Dies ist eine linear-algebraische Methode, um festzustellen, dass OLS eine orthogonale Projektion des Antwortvektors auf den von den Variablen überspannten Raum ist.)


Erinnern Sie sich per Definition daran

R2=ESSTSS

wo

ESS=(Y^)Y^

ist die Summe der Quadrate der (zentrierten) vorhergesagten Werte und

TSS=YY

ist die Summe der Quadrate der (zentrierten) Antwortwerte. Die vorherige Standardisierung von auf die Einheitsvarianz impliziert ebenfallsY

TSS=YY=n.

Denken Sie auch daran, dass die geschätzten Koeffizienten gegeben sind durch

β^=(XX)XY,

woher

Y^=Xβ^=X(XX)XY=HY

wobei die „hat matrix“ Bewirkung der Projektion ist auf seinen kleinsten Quadrate . Es ist symmetrisch (was sich aus seiner Form ergibt) und idempotent . Hier ist ein Beweis für Letzteres für diejenigen, die mit diesem Ergebnis nicht vertraut sind. Es werden nur Klammern gemischt:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Deshalb

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Der entscheidende Zug in der Mitte nutzte die Idempotenz der Hutmatrix. Die rechte Seite ist Ihre Zauberformel, weil der (Zeilen-) Vektor der Korrelationskoeffizienten zwischen und den Spalten von .1nYXYX

whuber
quelle
(+1) Sehr schöne Zusammenfassung. Aber warum ^{-}statt ^{-1}überall?
Amöbe
1
@amoeba Es ist eine verallgemeinerte Umkehrung , um die Fälle zu behandeln, in denen singulär sein kann. XX
whuber
4
@amoeba Penrose verwendete in seiner Originalarbeit ( A Generalized Inverse for Matrices , 1954) die Notation . Ich mag weder das noch die -Notation, weil sie zu leicht mit Konjugaten, Transponierten oder konjugierten Transponierten verwechselt werden können, während die -Notation auf eine Umkehrung hinweist, an die der Gelegenheitsleser denken kann es als wenn sie wollen. Du bist einfach ein zu guter Leser - aber danke, dass du es bemerkt hast. AA+AA1
whuber
1
Interessante und überzeugende Motivation, aber darf ich fragen, ob diese Notation gelegentlich an anderer Stelle verwendet wird oder ob es Ihre eigene Erfindung ist?
Amöbe
5
@amoeba: Ja, diese Notation erscheint an anderer Stelle, auch in den klassischen Texten von Graybill zum linearen Modell.
Kardinal
4

Die folgenden drei Formeln sind bekannt und finden sich in vielen Büchern zur linearen Regression. Es ist nicht schwer, sie abzuleiten.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Wenn Sie die beiden Betas in Ihre Gleichung , erhalten Sie die obige Formel für das R-Quadrat.R2=rYX1β1+rYX2β2


Hier ist eine geometrische "Einsicht". Unten sehen Sie zwei Bilder, die die Regression von um und . Diese Art der Darstellung wird als Variablen als Vektoren im Subjektraum bezeichnet (bitte lesen Sie , worum es geht). Die Bilder werden gezeichnet, nachdem alle drei Variablen zentriert wurden, und so (1) die Länge jedes Vektors = st. Abweichung der jeweiligen Variablen und (2) Winkel (ihr Kosinus) zwischen jeweils zwei Vektoren = Korrelation zwischen den jeweiligen Variablen.YX1X2

Geben Sie hier die Bildbeschreibung ein

Y^ ist die Regressionsvorhersage (orthogonale Projektion von auf "Ebene X"); ist der Fehlerterm; multipler Korrelationskoeffizient.YecosYY^=|Y^|/|Y|

Das linke Bild zeigt die Versatzkoordinaten von für die Variablen und . Wir wissen, dass solche Koordinaten die Regressionskoeffizienten in Beziehung setzen. Die Koordinaten sind nämlich: und .Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

Das rechte Bild zeigt die entsprechenden senkrechten Koordinaten . Wir wissen, dass solche Koordinaten die Korrelationskoeffizienten nullter Ordnung in Beziehung setzen (dies sind Cosinus orthogonaler Projektionen). Wenn die Korrelation zwischen und und die Korrelation zwischen und dann ist die Koordinate . Ebenso gilt für die andere Koordinate .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Bisher waren es allgemeine Erklärungen der linearen Regressionsvektordarstellung. Nun wenden wir uns der Aufgabe zu, um zu zeigen, wie sie zu .R2=r1β1+r2β2

Erinnern Sie sich zunächst daran, dass @Corone in ihrer Frage die Bedingung aufgestellt hat, dass der Ausdruck wahr ist, wenn alle drei Variablen standardisiert sind, dh nicht nur zentriert, sondern auch auf Varianz 1 skaliert sind. Dann (dh impliziert , um die "Arbeitsteile" der Vektoren zu sein) Wir haben Koordinaten gleich: ; ; ; ; sowie. Zeichnen Sie unter diesen Bedingungen nur die "Ebene X" der obigen Bilder neu:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

Geben Sie hier die Bildbeschreibung ein

Auf dem Bild haben wir ein Paar von senkrechten Koordinaten und ein Paar von Schrägstellungskoordinaten desselben Vektors der Länge . Es gibt eine allgemeine Regel, um senkrechte Koordinaten von schrägen (oder zurück) zu erhalten: , wobei eine Matrix von senkrechten Koordinaten ist ; ist die gleich große Matrix von Schrägstrichen; und sind die symmetrische Winkelmatrix (Cosinus) zwischen den nichtorthogonalen Achsen.Y^RP=SCPpoints X axesSCaxes X axes

X1 und sind in unserem Fall die Achsen, wobei der Kosinus zwischen ihnen ist. Also, und .X2r12r1=β1+β2r12r2=β1r12+β2

Ersetzen Sie diese s über ausgedrückt s in der @ Corone Aussage , und Sie bekommen , dass , - was wahr ist , denn genau so wird eine Diagonale eines Parallelogramms (auf dem Bild getönt) über seine benachbarten Seiten ausgedrückt (Menge ist das Skalarprodukt).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 r 12 β 1 β 2 r 12rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

Dasselbe gilt für eine beliebige Anzahl von Prädiktoren X. Leider ist es unmöglich, mit vielen Prädiktoren gleiche Bilder zu zeichnen.

ttnphns
quelle
1
+1 schön zu sehen, dass es auch so aufgebaut ist, aber das bringt nicht so viel Einsicht im Vergleich zu Whubers Antwort
Korone
2
@Corone, ich habe einige "Einblicke" hinzugefügt, die Sie nehmen könnten.
ttnphns
1
+1 Wirklich cool (nach dem Update). Ich dachte, dass das Aufrufen der "allgemeinen Regel" für das Konvertieren zwischen Koordinaten ein wenig übertrieben ist (und für mich nur verwirrend war); zu sehen, dass zB man sich nur an die Definition des Kosinus erinnern und eines der rechtwinkligen Dreiecke betrachten. r1=β1+β2r12
Amöbe
Wirklich coole Bearbeitung, geschaltet angenommen.
Korone