Normalitätsannahme bei linearer Regression

11

Als Annahme einer linearen Regression wird die Normalität der Fehlerverteilung manchmal fälschlicherweise "erweitert" oder als Notwendigkeit der Normalität von y oder x interpretiert.

Ist es möglich, ein Szenario / einen Datensatz zu erstellen, bei dem X und Y nicht normal sind, der Fehlerterm jedoch lautet und daher die erhaltenen linearen Regressionsschätzungen gültig sind?

ECII
quelle
5
Triviales Beispiel: X hat eine Bernoulli-Verteilung (dh mit den Werten 0 oder 1); Y = X + N (0, 0,1). Weder X noch Y sind normalerweise alleine verteilt, aber die Regression von Y auf X funktioniert immer noch.
Hong Ooi
Ich denke, Sie denken über die Verteilung der Residuen nach, nicht über die Verteilung der Variablen.
Taschuhka
5
Ich habe hier ein Beispiel ausgearbeitet: Was ist, wenn Residuen normal verteilt sind, Y jedoch nicht?
Gung - Reinstate Monica
Siehe auch
kjetil b halvorsen

Antworten:

16

Erweiterung des Kommentars von Hong Oois mit einem Bild. Hier ist ein Bild eines Datensatzes, in dem keiner der Ränder normal verteilt ist, die Residuen jedoch noch vorhanden sind. Daher gelten die Annahmen der linearen Regression weiterhin:

Geben Sie hier die Bildbeschreibung ein

Das Bild wurde mit dem folgenden R-Code erzeugt:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Rasmus Bååth
quelle