Bei der linearen Regression bin ich auf ein erfreuliches Ergebnis gestoßen, wenn wir zum Modell passen
Wenn wir dann die Daten , und standardisieren und ,
Dies fühlt sich für mich wie eine 2-Variablen-Version von für Regression an, was erfreulich ist.
Aber der einzige Beweis, den ich kenne, ist ohnehin nicht konstruktiv oder aufschlussreich (siehe unten), und dennoch scheint es leicht verständlich zu sein, ihn anzusehen.
Beispielgedanken:
- Die Parameter und geben uns den 'Anteil' von und in , und so nehmen wir die jeweiligen Anteile ihrer Korrelationen ...β 2 X 1 X 2 Y.
- Die s sind Teilkorrelationen, ist die quadratische Mehrfachkorrelation ... Korrelationen multipliziert mit Teilkorrelationen ...R 2
- Wenn wir die orthogonalisieren zuerst , dann wird s sein ... ist dieses Ergebnis einer gewissen geometrischen Sinn?C o v / V a r
Keiner dieser Fäden scheint für mich irgendwohin zu führen. Kann jemand eine klare Erklärung geben, wie man dieses Ergebnis versteht.
Unbefriedigender Beweis
und
QED.
regression
linear-model
r-squared
proof
Korone
quelle
quelle
Antworten:
Die Hutmatrix ist idempotent.
(Dies ist eine linear-algebraische Methode, um festzustellen, dass OLS eine orthogonale Projektion des Antwortvektors auf den von den Variablen überspannten Raum ist.)
Erinnern Sie sich per Definition daran
wo
ist die Summe der Quadrate der (zentrierten) vorhergesagten Werte und
ist die Summe der Quadrate der (zentrierten) Antwortwerte. Die vorherige Standardisierung von auf die Einheitsvarianz impliziert ebenfallsY
Denken Sie auch daran, dass die geschätzten Koeffizienten gegeben sind durch
woher
wobei die „hat matrix“ Bewirkung der Projektion ist auf seinen kleinsten Quadrate . Es ist symmetrisch (was sich aus seiner Form ergibt) und idempotent . Hier ist ein Beweis für Letzteres für diejenigen, die mit diesem Ergebnis nicht vertraut sind. Es werden nur Klammern gemischt:H Y Y^
Deshalb
Der entscheidende Zug in der Mitte nutzte die Idempotenz der Hutmatrix. Die rechte Seite ist Ihre Zauberformel, weil der (Zeilen-) Vektor der Korrelationskoeffizienten zwischen und den Spalten von .1nY′X Y X
quelle
^{-}
statt^{-1}
überall?Die folgenden drei Formeln sind bekannt und finden sich in vielen Büchern zur linearen Regression. Es ist nicht schwer, sie abzuleiten.
Wenn Sie die beiden Betas in Ihre Gleichung , erhalten Sie die obige Formel für das R-Quadrat.R2=rYX1β1+rYX2β2
Hier ist eine geometrische "Einsicht". Unten sehen Sie zwei Bilder, die die Regression von um und . Diese Art der Darstellung wird als Variablen als Vektoren im Subjektraum bezeichnet (bitte lesen Sie , worum es geht). Die Bilder werden gezeichnet, nachdem alle drei Variablen zentriert wurden, und so (1) die Länge jedes Vektors = st. Abweichung der jeweiligen Variablen und (2) Winkel (ihr Kosinus) zwischen jeweils zwei Vektoren = Korrelation zwischen den jeweiligen Variablen.Y X1 X2
Das linke Bild zeigt die Versatzkoordinaten von für die Variablen und . Wir wissen, dass solche Koordinaten die Regressionskoeffizienten in Beziehung setzen. Die Koordinaten sind nämlich: und .Y^ X1 X2 b1|X1|=b1σX1 b2|X2|=b2σX2
Das rechte Bild zeigt die entsprechenden senkrechten Koordinaten . Wir wissen, dass solche Koordinaten die Korrelationskoeffizienten nullter Ordnung in Beziehung setzen (dies sind Cosinus orthogonaler Projektionen). Wenn die Korrelation zwischen und und die Korrelation zwischen und dann ist die Koordinate . Ebenso gilt für die andere Koordinate .r1 Y X1 r∗1 Y^ X1 r1|Y|=r1σY=r∗1|Y^|=r∗1σY^ r2|Y|=r2σY=r∗2|Y^|=r∗2σY^
Bisher waren es allgemeine Erklärungen der linearen Regressionsvektordarstellung. Nun wenden wir uns der Aufgabe zu, um zu zeigen, wie sie zu .R2=r1β1+r2β2
Erinnern Sie sich zunächst daran, dass @Corone in ihrer Frage die Bedingung aufgestellt hat, dass der Ausdruck wahr ist, wenn alle drei Variablen standardisiert sind, dh nicht nur zentriert, sondern auch auf Varianz 1 skaliert sind. Dann (dh impliziert , um die "Arbeitsteile" der Vektoren zu sein) Wir haben Koordinaten gleich: ; ; ; ; sowie. Zeichnen Sie unter diesen Bedingungen nur die "Ebene X" der obigen Bilder neu:|X1|=|X2|=|Y|=1 b1|X1|=β1 b2|X2|=β2 r1|Y|=r1 r2|Y|=r2 R=|Y^|/|Y|=|Y^|
Auf dem Bild haben wir ein Paar von senkrechten Koordinaten und ein Paar von Schrägstellungskoordinaten desselben Vektors der Länge . Es gibt eine allgemeine Regel, um senkrechte Koordinaten von schrägen (oder zurück) zu erhalten: , wobei eine Matrix von senkrechten Koordinaten ist ; ist die gleich große Matrix von Schrägstrichen; und sind die symmetrische Winkelmatrix (Cosinus) zwischen den nichtorthogonalen Achsen.Y^ R P=SC P S C
points X axes
axes X axes
Ersetzen Sie diese s über ausgedrückt s in der @ Corone Aussage , und Sie bekommen , dass , - was wahr ist , denn genau so wird eine Diagonale eines Parallelogramms (auf dem Bild getönt) über seine benachbarten Seiten ausgedrückt (Menge ist das Skalarprodukt).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 r 12 β 1 β 2 r 12r β R2=r1β1+r2β2 R2=β21+β22+2β1β2r12 β1β2r12
Dasselbe gilt für eine beliebige Anzahl von Prädiktoren X. Leider ist es unmöglich, mit vielen Prädiktoren gleiche Bilder zu zeichnen.
quelle