Warum ist es notwendig, die Verteilungsannahme auf die Fehler zu setzen, dh
mit .
Warum nicht schreiben
mit ,
wobei in jedem Fall .
Ich habe gesehen, wie betont wurde, dass die Verteilungsannahmen auf den Fehlern beruhen, nicht auf den Daten, sondern ohne Erklärung.
Ich verstehe den Unterschied zwischen diesen beiden Formulierungen nicht wirklich. An einigen Stellen sehe ich Verteilungsannahmen, die auf die Daten angewendet werden (Bayes'sches Lit. scheint es meistens zu sein), aber meistens werden die Annahmen auf die Fehler angewendet.
Warum sollte / sollte man sich bei der Modellierung dafür entscheiden, mit Annahmen über die eine oder andere zu beginnen?
Antworten:
In einer linearen Regression ist es üblich, Analysen durchzuführen und Ergebnisse abhängig von , dh abhängig von "den Daten", abzuleiten . Was Sie also brauchen, ist, dass y ∣ X normal ist, das heißt, dass Sie ϵ normal sein müssen. Wie Peter Floms Beispiel zeigt, kann man eine Normalität von ϵ haben, ohne eine Normalität von y zu haben. Da Sie also die Normalität von ϵ brauchen, ist dies die vernünftige Annahme.X y∣X ϵ ϵ y ϵ
quelle
Ich würde die zweite Definition als schreiben
oder (wie Karl Oskar +1 vorschlägt)
dh die Modellannahme ist, dass die Antwortvariable normal um die Regressionslinie (die eine Schätzung des bedingten Mittels ist) mit konstanter Varianz . Dies ist nicht das Gleiche wie die Annahme, dass y i normal verteilt ist, da der Mittelwert der Verteilung von X i abhängt .σ2 yi Xi
Ich glaube, ich habe ähnliche Formulierungen in der Literatur zum maschinellen Lernen gesehen. soweit ich sehen kann , ist es entsprechend der ersten Definition, alle I getan haben , ist die zweite Formulierung ein wenig anders rexpress die zu eliminieren ‚s und die y ‘ s.ϵi y^
quelle
Der Unterschied lässt sich am einfachsten anhand eines Beispiels veranschaulichen. Hier ist eine einfache:
Angenommen, Y ist bimodal, wobei die Modalität durch eine unabhängige Variable berücksichtigt wird. Angenommen, Y ist die Größe und Ihre Stichprobe (aus welchem Grund auch immer) besteht aus Jockeys und Basketballspielern. zB in
R
Die erste Dichte ist sehr ungewöhnlich. Aber die Residuen des Modells sind extrem normal.
Was die Gründe für diese Einschränkung angeht, lasse ich dies von jemand anderem beantworten.
quelle
Sie müssen eine i auf Ihre zweite Formulierung hinzufügen suscripted:
, weil y mit variieren entlang muss in der Lage x i .
Das bemerkt wurde, was y i ? Es ist x i β . Dies führt zu der Formulierung @DikranMarsupial präsentiert: y i ~ N ( x i β , σ 2 ε ) Es lohnt sich zu erkennen , dass dies genau die gleiche wie die erste Formulierung, weil beide stipulate Normalverteilungen und die erwarteten Werte gleich sind. Das heißt: E [ x i β ]y^i xiβ^
(Und natürlich die Varianzen gleich sind.) Mit anderen Worten, ist diesnichtinAnnahmen ein Unterschied, sondern einfach ein Notations Unterschied.
Es stellt sich also die Frage, ob es einen Grund gibt, die Idee lieber mit der ersten Formulierung zu präsentieren.
Ich denke , die Antwort ist ja aus zwei Gründen:
Ich glaube, dass diese Verwirrungen eher die zweite Formulierung als die erste verwenden.
quelle