Bedingter Mittelwert bei linearer Regression

8

Ich habe eine Frage zur linearen Regression im Allgemeinen. Angenommen, wir haben den folgenden Datengenerierungsprozess:

yi=xiβ+ϵi

Nach meinem Verständnis ist jede Beobachtung eine Zufallsvariable, dh jedes hat einen bedingten Mittelwert , dh : unter Exogenitätsannahmen. Meine Frage lautet wie folgt. Was ist das bedingungslose Mittel von ? Was bedeutet wirklich, wenn wir eine Stichprobe von n Datenpunkten haben ? Ist es der Mittelwert des Zufallsvektors von ? Wie gilt hier das Gesetz der iterierten Erwartungen?yi

E[yi|xi]=xiβ
yE[y]yis
ChinG
quelle

Antworten:

7

In diesen Situationen ist es wichtig, präzise zu sein und zwischen dem Datenmodell und den Daten selbst zu unterscheiden. Eine Möglichkeit, über lineare Regression nachzudenken, besteht darin, dass wir die folgende Beziehung zu dem nicht erkennbaren statistischen Prozess annehmen, der die Daten generiert hat, über die wir verfügen

E[YX]=β0+Xβ

Beta ist zu diesem Zeitpunkt eine unbekannte Konstante, daher stellen wir nur eine Hypothese auf, wie die Form der Beziehung unserer Meinung nach aussieht . Angesichts der Daten verwenden wir dann eine Methode, um zu bestimmen, was sein soll, damit die hypothetische Beziehung wahrscheinlich die Daten generiert, über die wir verfügen (maximale Wahrscheinlichkeit ist sehr beliebt).β

Auch ohne , können wir die Beziehung manipulieren, um einige Dinge über die Konsequenzen unserer Annahmen zu lernenβ

E[Y]=E[E[YX]]=β0+βE[X]=β0+βE[X]

Nun, die Verteilung von ist im Allgemeinen nicht Teil unserer strukturellen Annahmen bei der Regression, daher ist dies im Allgemeinen so weit wie möglich.X

Oft werden wir unsere Daten für zentrieren, was unserem Modell die Einschränkung auferlegt . In diesem Fall können wir ableitenXE[X]=0

E[Y]=β0

Aus diesem Grund empfiehlt dieses Buch beispielsweise, Prädiktoren (in einigen Situationen) so zu zentrieren, dass der Modellabschnitt interpretierbar ist.

Meine Frage ist nun, wie dies mit dem Stichprobenmittelwert von y zusammenhängt.

Wenn Sie das Modell durch kleinste Quadrate anpassen und den Prädiktor zentriert haben , ist der Modellabschnitt der Stichprobenmittelwert.x

Geometrisch muss die Linie der kleinsten Quadrate durch den Massenmittelpunkt der Daten verlaufen . Wenn Sie zentriert haben , ist , sodass die Linie durch . Wenn Sie diese Werte in die Modellgleichung , erhalten Sie .(x¯,y¯)xx¯=0(0,y¯)β0=y¯

Algebraisch lautet die Gleichung der kleinsten Quadrate . Wenn Sie an die Matrix denken , ist die erste Spalte alles (die Intercept-Spalte), und da zentriert ist, ist diese Intercept-Spalte orthogonal zur Datenspalte. Dies bedeutet, dass die erste Zeile von wie aussieht (wobei die Anzahl der Datenpunkte ist). Dann ist die erste Komponente der linken Seite . Auf der rechten Seite ist die erste Komponente . Wenn Sie sie gleichsetzen, erhalten Sie das Ergebnis .(XtX)β=XtyXxXtX(N,0)NNβ0iyiβ0=y¯

Es ist auch wahr, dass der Mittelwert der Vorhersagen gleich . Da dies die geschätzten bedingten Mittel sind (unter der Annahme), erhalten Sie eine Beziehung wie die, die Sie suchen. Um dies zu sehen, beobachten Sie einfach, dass die Vorhersagen , und gruppieren Sie die Gleichung der kleinsten Quadrate alsy¯Xβ

Xt(Xβ)=Xty

Verwenden Sie jetzt ein ähnliches Argument wie oben.

Matthew Drury
quelle
Entschuldigung @Matthew. Ich stimme Ihrer ersten Gleichung nicht zu. Unter Exogenität sollte der Epsilon-Begriff nicht vorhanden sein. Eine andere Möglichkeit, meine Frage zu stellen, besteht darin, eine Aussage über das bedingte Mittel der Beobachtung gegenüber dem bedingten Mittel der abhängigen Variablen in der gesamten Stichprobe zu treffen. Ich vermute, sie sind verwandt!
ChinG
Ich glaube, Sie haben in diesem ersten Punkt absolut Recht, das sollte nicht da sein, das ist Nachlässigkeit meinerseits, ich werde es beheben! Ich habe versucht, die hier oft genannten Normalitätsannahmen zu vermeiden, aber ich war durcheinander. Können Sie Ihren zweiten Punkt klarstellen? ϵ
Matthew Drury
Vielen Dank für Ihre schnelle Antwort. Meine Frage lautet also im Grunde die folgende. Jede Beobachtung hat den von Ihnen erwähnten bedingten Mittelwert, der im Grunde x_i'b ist. Meine Frage ist nun, wie dies mit dem Stichprobenmittelwert von y zusammenhängt. Ich möchte den bedingten Mittelwert einer bestimmten Beobachtung mit dem bedingungslosen Mittelwert aller Beobachtungen in der Stichprobe vergleichen. Im Grunde genommen würde y_i einer bestimmten Beobachtung entsprechen, während Y dem Vektor der Beobachtungen entsprechen würde. Meine Frage ist, wie sich das bedingte Mittel jeder Beobachtung auf das Mittel der Beobachtungen bezieht. Vielen Dank!
ChinG
1
@ChinG Ich habe versucht, Ihre Frage zu beantworten, hoffentlich hilft das.
Matthew Drury
2

Um den bedingungslosen Mittelwert (oder Randmittelwert) von Y zu erhalten, wird die Verteilung von X benötigt, wenn der Mittelwert von Y wie in Ihrer Frage von X abhängt. Wenn Sie die Verteilung von X nicht kennen und nicht schätzen können, ist es unmöglich, den bedingungslosen Mittelwert von Y abzuleiten.

user158565
quelle