Was ist, wenn die Residuen normal verteilt sind, y jedoch nicht?

110

Ich habe eine komische Frage. Angenommen, Sie haben eine kleine Stichprobe, bei der die abhängige Variable, die Sie mit einem einfachen linearen Modell analysieren möchten, stark verzerrt ist. Sie nehmen also an, dass nicht normalverteilt ist, da dies zu normalverteiltem . Wenn Sie jedoch den QQ-Normal-Plot berechnen, gibt es Hinweise darauf, dass die Residuen normalverteilt sind. Somit kann jeder annehmen, dass der Fehlerterm normalverteilt ist, obwohl dies bei nicht der ist. Was bedeutet es also, wenn der Fehlerbegriff normalverteilt zu sein scheint, jedoch nicht? $u$ $y$ $y$ $y$

regression residuals error normality-assumption MarkDollar
quelle

Antworten:

143

Es ist vernünftig, dass die Residuen in einem Regressionsproblem normal verteilt sind, obwohl die Antwortvariable dies nicht ist. Stellen Sie sich ein univariates Regressionsproblem vor, bei dem . Damit ist das Regressionsmodell angemessen und es wird weiterhin angenommen, dass der wahre Wert von . In diesem Fall ist, während die Residuen des wahren Regressionsmodells normal sind, die Verteilung von von der Verteilung von abhängig , da das bedingte Mittel von eine Funktion von . Wenn der Datensatz viele Werte von , die nahe bei Null liegen, und mit zunehmendem Wert von immer weniger , dann ist die Verteilung von $y \sim \mathcal{N}(\beta x, \sigma^2)$ $\beta=1$ $y$ $x$ $y$ $x$ $x$ $x$ $y$ wird nach links verschoben. Wenn die Werte von symmetrisch verteilt sind, wird symmetrisch verteilt und so weiter. Für ein Regressionsproblem nehmen wir nur an, dass die Antwort normal ist, abhängig vom Wert von . $x$ $y$ $x$

Dikran Beuteltier
quelle

(+1) Ich glaube nicht, dass dies oft genug wiederholt werden kann! Siehe auch das gleiche Problem, das hier diskutiert wurde .

Wolfgang

Ich verstehe deine Antwort und es klingt richtig. Zumindest hast du viele positive Stimmen erhalten :) Aber ich bin überhaupt nicht glücklich. In Ihrem Beispiel lauten die getroffenen Annahmen also . Aber wenn ich die Regression abschätze, schätze ich . Daher sollte zu dem Zeitpunkt angegeben werden, an dem ich den Mittelwert schätze. Daraus sollte folgen, dass x ein Wert ist und es mir egal ist, wie er verteilt wurde, bevor ich ihn realisiere. Also ist die Verteilung von . Ich verstehe nicht, wo das das .

β = 1

$\beta=1$

y \sim N (1 \cdot x, σ^{2})

$y\sim N(1\cdot x,\sigma^{2})$

E (y | x)

$E(y|x)$

x

$x$

y \sim N (v a l u e, σ^{2})

$y\sim N(value,\sigma^{2})$

y

$y$

x

$x$

y

$y$

MarkDollar

Ich bin auch (angenehm) überrascht von der Anzahl der Stimmen; o) Um die Daten zu erhalten, die für das Regressionsmodell verwendet wurden, haben Sie eine Stichprobe aus einer gemeinsamen Verteilung , aus der Sie eine Schätzung vornehmen möchten . Da jedoch eine (verrauschte) Funktion von , muss die Verteilung von Abtastwerten von von der Verteilung von Abtastwerten von für diese bestimmte Abtastung abhängen . Möglicherweise interessiert Sie die "wahre" Verteilung von , aber die Stichprobenverteilung von y hängt von der Stichprobe von x ab.

p (y, x)

$p(y,x)$

E (y | x)

$E(y|x)$

y

$y$

x

$x$

y

$y$

x

$x$

x

$x$

Dikran Marsupial

Betrachten Sie ein Beispiel für die Schätzung der Temperatur (

) als Funktion der Lattitude (

). Die Verteilung der

Werte in unserer Stichprobe hängt davon ab, wo wir Wetterstationen aufstellen. Wenn wir sie alle entweder an den Polen oder am Äquator platzieren, haben wir eine bimodale Verteilung. Wenn wir sie in einem regelmäßigen Gitter mit gleicher Fläche platzieren, erhalten wir eine unimodale Verteilung der

Werte, obwohl die Physik des Klimas für beide Stichproben gleich ist. Dies wirkt sich natürlich auf Ihr angepasstes Regressionsmodell aus, und das Studium dieser Art wird als "kovariate Verschiebung" bezeichnet. HTH

y

$y$

x

$x$

y

$y$

y

$y$

Dikran Marsupial

Ich vermute auch, dass das

von der impliziten Annahme abhängig ist, dass die verwendeten Daten eine Stichprobe aus der operativen gemeinsamen Verteilung

E (y | x)

$E(y|x)$

p (y, x)

$p(y,x)$

Dikran Beuteltier

100

@DikranMarsupial ist natürlich genau richtig, aber mir ist der Gedanke gekommen, dass es schön sein könnte, seinen Standpunkt zu veranschaulichen , zumal diese Besorgnis offenbar häufig auftaucht. Insbesondere sollten die Residuen eines Regressionsmodells normalverteilt sein, damit die p-Werte korrekt sind. Doch selbst wenn die Residuen normal verteilt sind, das garantiert nicht , dass wird (nicht , dass es darauf ankommt , ...); es hängt von der Verteilung von . $Y$ $X$

Nehmen wir ein einfaches Beispiel (das ich erfasse). Angenommen, wir testen ein Medikament auf isolierte systolische Hypertonie (dh der obere Blutdruck ist zu hoch). Nehmen wir weiter an, dass der systolische Bp in unserer Patientenpopulation normal verteilt ist, mit einem Mittelwert von 160 & SD von 3, und dass für jede mg des Arzneimittels, die Patienten täglich einnehmen, der systolische Bp um 1 mmHg sinkt. Mit anderen Worten, der wahre Wert von ist 160 und -1 ist , und die wahre Datenerzeugungsfunktion ist: $\beta_0$ $\beta_1$ In unserer fiktiven Studie werden 300 Patienten nach dem Zufallsprinzip mg (ein Placebo), 20 mg oder 40 mg dieses neuen Arzneimittels pro Tag zugeteilt. (Beachten Sie, dass nicht normal verteilt ist.) Nach einer angemessenen Zeitspanne, in der das Medikament wirksam wird, sehen unsere Daten möglicherweise folgendermaßen aus:

B P_{s y s} = 160 - 1 \times tägliche Medikamentendosis + ε wo ε \sim N (0, 9)

$BP_{sys}=160-1\times\text{daily drug dosage}+\varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, 9)$

X

$X$

Bildbeschreibung hier eingeben

(Ich habe die Dosierungen gezittert, damit sich die Punkte nicht so sehr überlappen, dass sie schwer zu unterscheiden sind.) Schauen wir uns nun die Verteilungen von (dh die marginale / ursprüngliche Verteilung) und die Residuen an: $Y$

Bildbeschreibung hier eingeben

$Y$ $Y$

$Y$ $X$ $p<.05$ $\beta_1$

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532

Bildbeschreibung hier eingeben

Diese Ergebnisse zeigen, dass alles gut funktioniert.

$X$ $Y$ $X$

gung
quelle

Die Annahme, dass die Residuen normal verteilt sind, ist also nur für p-Werte korrekt? Warum könnten die p-Werte schief gehen, wenn der Rest nicht normal ist?

Avocado

@loganecolss, das könnte als neue Frage besser sein. Auf jeden Fall muss es ja tun w / ob die p-Werte stimmen. Wenn Ihre Residuen nicht normal genug sind und Ihr N niedrig ist, weicht die Stichprobenverteilung von der theoretischen Verteilung ab. Da der p-Wert angibt, wie viel von dieser Stichprobenverteilung außerhalb Ihrer Teststatistik liegt, ist der p-Wert falsch.

gung

$X$ $Y$ $X$

Dovini Jayasinghe
quelle

Die marginale Verteilung der Antwort ist überhaupt nicht "bedeutungslos"; Dies ist die marginale Verteilung der Antwort (und sollte häufig auf andere Modelle als eine einfache Regression mit normalen Fehlern hinweisen). Sie haben Recht, wenn Sie betonen, dass bedingte Verteilungen wichtig sind, wenn wir das betreffende Modell unterhalten, aber dies trägt nicht hilfreich zu den vorhandenen hervorragenden Antworten bei.

Nick Cox