Wenn ich also annehme, dass die Fehlerterme normalerweise in einer linearen Regression verteilt sind, was bedeutet das für die Antwortvariable ?
regression
distributions
MarkDollar
quelle
quelle
Die kurze Antwort lautet, dass Sie keine Schlussfolgerung über die Verteilung von , da dies von der Verteilung der x und der Stärke und Form der Beziehung abhängt . Formal y eine „Mischung von Normalen“ Verteilung hat, die wie alles in der Praxis recht sein können.y x y
Hier sind zwei extreme Beispiele, um dies zu veranschaulichen:
Tatsächlich kann man, da jede Verteilung mit einer Mischung von Normalen beliebig gut angenähert werden kann, wirklich jede Verteilung für .y
quelle
Wir erfinden den Fehlerbegriff, indem wir realen Daten ein fiktives Modell auferlegen. Die Verteilung des Fehlerterms hat keinen Einfluss auf die Verteilung der Antwort.
Wir gehen oft davon aus, dass der Fehler normal verteilt ist, und versuchen daher, das Modell so zu konstruieren, dass unsere geschätzten Residuen normal verteilt sind. Dies kann für einige Verteilungen von schwierig sein . In diesen Fällen könnte man sagen, dass die Verteilung der Antwort den Fehlerterm beeinflusst.y
quelle
Wenn Sie die Antwort als ausschreiben, wobei m das "Modell" (die Vorhersage für y ) und e die "Fehler" sind, kann dies neu angeordnet werden, um y - m = e anzuzeigen . Das Zuweisen einer Verteilung für die Fehler entspricht also dem Anzeigen der Art und Weise, in der Ihr Modell unvollständig ist. Anders ausgedrückt: Es gibt an, inwieweit Sie nicht wissen, warum die beobachtete Reaktion der Wert war, der sie tatsächlich war, und nicht das, was das Modell vorhergesagt hat. Wenn Sie wüssten, dass Ihr Modell perfekt ist, würden Sie eine Wahrscheinlichkeitsverteilung mit der gesamten Masse auf Null für die Fehler zuweisen. Zuweisen eines N (
In gewissem Sinne ist die Fehlerverteilung eher mit dem Modell als mit der Antwort verbunden. Dies ist aus der Nichtidentifizierbarkeit der obigen Gleichung ersichtlich, denn wenn sowohl als auch e unbekannt sind, führt das Addieren eines beliebigen Vektors zu m und das Subtrahieren von e zu demselben Wert von y , y = m + e = ( m + b ) + ( e - b ) = m ' + e 'm e m e y y=m+e=(m+b)+(e−b)=m′+e′ . Die Zuordnung einer Fehlerverteilung und einer Modellgleichung besagt grundsätzlich, welche beliebigen Vektoren plausibler sind als andere.
quelle