In diesen Situationen ist es wichtig, präzise zu sein und zwischen dem Datenmodell und den Daten selbst zu unterscheiden. Eine Möglichkeit, über lineare Regression nachzudenken, besteht darin, dass wir die folgende Beziehung zu dem nicht erkennbaren statistischen Prozess annehmen, der die Daten generiert hat, über die wir verfügen
E[Y∣X]=β0+Xβ
Beta ist zu diesem Zeitpunkt eine unbekannte Konstante, daher stellen wir nur eine Hypothese auf, wie die Form der Beziehung unserer Meinung nach aussieht . Angesichts der Daten verwenden wir dann eine Methode, um zu bestimmen, was sein soll, damit die hypothetische Beziehung wahrscheinlich die Daten generiert, über die wir verfügen (maximale Wahrscheinlichkeit ist sehr beliebt).β
Auch ohne , können wir die Beziehung manipulieren, um einige Dinge über die Konsequenzen unserer Annahmen zu lernenβ
E[Y]=E[E[Y∣X]]=β0+βE[X]=β0+βE[X]
Nun, die Verteilung von ist im Allgemeinen nicht Teil unserer strukturellen Annahmen bei der Regression, daher ist dies im Allgemeinen so weit wie möglich.X
Oft werden wir unsere Daten für zentrieren, was unserem Modell die Einschränkung auferlegt . In diesem Fall können wir ableitenXE[X]=0
E[Y]=β0
Aus diesem Grund empfiehlt dieses Buch beispielsweise, Prädiktoren (in einigen Situationen) so zu zentrieren, dass der Modellabschnitt interpretierbar ist.
Meine Frage ist nun, wie dies mit dem Stichprobenmittelwert von y zusammenhängt.
Wenn Sie das Modell durch kleinste Quadrate anpassen und den Prädiktor zentriert haben , ist der Modellabschnitt der Stichprobenmittelwert.x
Geometrisch muss die Linie der kleinsten Quadrate durch den Massenmittelpunkt der Daten verlaufen . Wenn Sie zentriert haben , ist , sodass die Linie durch . Wenn Sie diese Werte in die Modellgleichung , erhalten Sie .(x¯,y¯)xx¯=0(0,y¯)β0=y¯
Algebraisch lautet die Gleichung der kleinsten Quadrate . Wenn Sie an die Matrix denken , ist die erste Spalte alles (die Intercept-Spalte), und da zentriert ist, ist diese Intercept-Spalte orthogonal zur Datenspalte. Dies bedeutet, dass die erste Zeile von wie aussieht (wobei die Anzahl der Datenpunkte ist). Dann ist die erste Komponente der linken Seite . Auf der rechten Seite ist die erste Komponente . Wenn Sie sie gleichsetzen, erhalten Sie das Ergebnis .(XtX)β⃗ =XtyXxXtX(N,0)NNβ0∑iyiβ0=y¯
Es ist auch wahr, dass der Mittelwert der Vorhersagen gleich . Da dies die geschätzten bedingten Mittel sind (unter der Annahme), erhalten Sie eine Beziehung wie die, die Sie suchen. Um dies zu sehen, beobachten Sie einfach, dass die Vorhersagen , und gruppieren Sie die Gleichung der kleinsten Quadrate alsy¯Xβ⃗
Xt(Xβ⃗ )=Xty
Verwenden Sie jetzt ein ähnliches Argument wie oben.
Um den bedingungslosen Mittelwert (oder Randmittelwert) von Y zu erhalten, wird die Verteilung von X benötigt, wenn der Mittelwert von Y wie in Ihrer Frage von X abhängt. Wenn Sie die Verteilung von X nicht kennen und nicht schätzen können, ist es unmöglich, den bedingungslosen Mittelwert von Y abzuleiten.
quelle