Annahmen zur verbleibenden Regressionsverteilung

12

Warum ist es notwendig, die Verteilungsannahme auf die Fehler zu setzen, dh

yi=Xβ+ϵi mitϵiN(0,σ2) .

Warum nicht schreiben

yi=Xβ+ϵi mityiN(Xβ^,σ2) ,

wobei in jedem Fall ϵi=yiy^ .
Ich habe gesehen, wie betont wurde, dass die Verteilungsannahmen auf den Fehlern beruhen, nicht auf den Daten, sondern ohne Erklärung.

Ich verstehe den Unterschied zwischen diesen beiden Formulierungen nicht wirklich. An einigen Stellen sehe ich Verteilungsannahmen, die auf die Daten angewendet werden (Bayes'sches Lit. scheint es meistens zu sein), aber meistens werden die Annahmen auf die Fehler angewendet.

Warum sollte / sollte man sich bei der Modellierung dafür entscheiden, mit Annahmen über die eine oder andere zu beginnen?

bill_e
quelle
Erstens ist es nicht "notwendig", es hängt davon ab, was Sie vorhaben. Es gibt einige gute Antworten, aber ich denke, der springende Punkt ist die zugrunde liegende Annahme der Kausalität im Sinne der Xs, die das y "verursachen", und wenn man es so betrachtet, sieht man, dass die Verteilung von y durch "verursacht" wird die Verteilung der rhs, dh die Xs und die Fehler (falls vorhanden). Sie können mit sehr begrenzten Verteilungsannahmen und insbesondere ohne Normalität viele ökonometrische Untersuchungen durchführen. Danke Gott.
PatrickT
3
ist nichtXβ, und der Mittelwert desy‚S ist nicht das gleiche wie die Probe Schätzung davon. Welches ist zu sagendass das zweitewas nicht eigentlich das gleiche wie das erste ist, aber wenn man es mit seiner Erwartung ersetzen (E( y )=E(y)=Xβ), wäre die zwei gleichwertig. y^XβyE(y^)=E(y)=Xβ
Glen_b -Reinstate Monica
Was ist y ? Und wenn y i mit variiert i , tut , warum nicht X β variieren? Bitte überlegen Sie sich, welche Notation Sie verwenden möchten, den Vektor oder die Matrix. Nun , wenn wir davon ausgehen , dass y = X β Ihre Schreibweise ist mehr als bizzare: y i ~ N ( x ' i ( Σ x j x ' j ) - 1 Σ x j y j , & sgr; 2 )y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)dh Sie definieren die Verteilung von in Bezug auf sich selbst und alle anderen Beobachtungen y j ! yiyj
mpiktas
1
Ich habe die Frage abgelehnt, weil ich denke, dass die Notation verwirrend ist und dies bereits zu mehreren subtil widersprüchlichen Antworten geführt hat.
mpiktas

Antworten:

9

In einer linearen Regression ist es üblich, Analysen durchzuführen und Ergebnisse abhängig von , dh abhängig von "den Daten", abzuleiten . Was Sie also brauchen, ist, dass y X normal ist, das heißt, dass Sie ϵ normal sein müssen. Wie Peter Floms Beispiel zeigt, kann man eine Normalität von ϵ haben, ohne eine Normalität von y zu haben. Da Sie also die Normalität von ϵ brauchen, ist dies die vernünftige Annahme.XyXϵϵyϵ

ekvall
quelle
8

Ich würde die zweite Definition als schreiben

yiN(Xiβ,σ2)

oder (wie Karl Oskar +1 vorschlägt)

yi|XiN(Xiβ,σ2)

dh die Modellannahme ist, dass die Antwortvariable normal um die Regressionslinie (die eine Schätzung des bedingten Mittels ist) mit konstanter Varianz . Dies ist nicht das Gleiche wie die Annahme, dass y i normal verteilt ist, da der Mittelwert der Verteilung von X i abhängt .σ2yiXi

Ich glaube, ich habe ähnliche Formulierungen in der Literatur zum maschinellen Lernen gesehen. soweit ich sehen kann , ist es entsprechend der ersten Definition, alle I getan haben , ist die zweite Formulierung ein wenig anders rexpress die zu eliminieren ‚s und die y s.ϵiy^

Dikran Beuteltier
quelle
3

Der Unterschied lässt sich am einfachsten anhand eines Beispiels veranschaulichen. Hier ist eine einfache:

Angenommen, Y ist bimodal, wobei die Modalität durch eine unabhängige Variable berücksichtigt wird. Angenommen, Y ist die Größe und Ihre Stichprobe (aus welchem ​​Grund auch immer) besteht aus Jockeys und Basketballspielern. zB inR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

Die erste Dichte ist sehr ungewöhnlich. Aber die Residuen des Modells sind extrem normal.

Was die Gründe für diese Einschränkung angeht, lasse ich dies von jemand anderem beantworten.

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Vielen Dank! Ich verstehe, was Sie mit einer bimodalen Verteilung meinen. Folgefrage: Was ist, wenn die Abweichungen der Daten unterschiedlich sind (Heteroskedastizität?)? Sagen wir ... alle Jockeys sind klein, aber die Höhen der Basketballspieler variieren stark. Vielleicht für sie, groß (100,78,10). Wie ändert eine Situation wie diese Ihre Annahmen über oder ϵ i ? yiϵi
bill_e
In diesem Fall wäre Heteroskedastizität ein Problem, und Sie müssten eine andere Form der Regression oder möglicherweise eine Transformation verwenden, oder Sie könnten eine andere Variable hinzufügen (in diesem albernen Beispiel könnte dies die im Basketball gespielte Position tun).
Peter Flom - Wiedereinsetzung von Monica
Ich bin nicht sicher, ob die Formulierung darauf hindeuten soll, dass die ys normalverteilt sind, nur dass sie eine normale bedingte Verteilung haben.
Dikran Marsupial
2

Sie müssen eine i auf Ihre zweite Formulierung hinzufügen suscripted:
, weil y mit variieren entlang muss in der Lage x i .

yiN(y^i,σε2)
y^xi

Das bemerkt wurde, was y i ? Es ist x i β . Dies führt zu der Formulierung @DikranMarsupial präsentiert: y i ~ N ( x i β , σ 2 ε ) Es lohnt sich zu erkennen , dass dies genau die gleiche wie die erste Formulierung, weil beide stipulate Normalverteilungen und die erwarteten Werte gleich sind. Das heißt: E [ x i β ]y^ixiβ^

yiN(xiβ^,σε2)

(Und natürlich die Varianzen gleich sind.) Mit anderen Worten, ist diesnichtinAnnahmen ein Unterschied, sondern einfach ein Notations Unterschied.
E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]

Es stellt sich also die Frage, ob es einen Grund gibt, die Idee lieber mit der ersten Formulierung zu präsentieren.

Ich denke , die Antwort ist ja aus zwei Gründen:

  1. YXY|Xε
  2. Y|XY|X

Ich glaube, dass diese Verwirrungen eher die zweite Formulierung als die erste verwenden.

gung - Wiedereinsetzung von Monica
quelle
1
y^Xβy^ixiβ^iy^ixiβ^Y
y¯y^y^=Xβyi=Xβ+ϵi and ϵi=yiy^. For both of these things to be true, y^ can only be Xβ.
Dikran Marsupial