Links schief gegen symmetrische Verteilung beobachtet

10

Das ist für mich ziemlich schwer zu beschreiben, aber ich werde versuchen, mein Problem verständlich zu machen. Zuerst muss man wissen, dass ich bisher eine sehr einfache lineare Regression durchgeführt habe. Bevor ich den Koeffizienten schätzte, beobachtete ich die Verteilung meines . Es ist schwer links schief. Nachdem ich das Modell geschätzt hatte, war ich mir ziemlich sicher, dass ich auch einen linksgerichteten Rest in einem QQ-Plot beobachten konnte, aber ich tat es absolut nicht. Was könnte der Grund für diese Lösung sein? Wo ist der Fehler? Oder hat die Verteilung nichts mit der Verteilung der Fehlerterm zu tun?yy

MarkDollar
quelle
@Aniko gibt eine nette Antwort auf Ihre vorherige Frage.
whuber

Antworten:

22

Um Ihre Frage zu beantworten, nehmen wir ein sehr einfaches Beispiel. Das einfache Regressionsmodell ist gegeben durch , wobei . Nehmen wir nun an, dass dichotom ist. Wenn nicht gleich Null ist, ist die Verteilung von nicht normal, sondern eine Mischung aus zwei Normalverteilungen, eine mit dem Mittelwert und eine mit dem Mittelwert .yich=β0+β1xich+ϵichϵichN.(0,σ2)xichβ1yichβ0β0+β1

Wenn groß genug und klein genug ist, sieht ein Histogramm von bimodal aus. Man kann jedoch auch ein Histogramm von , das wie eine "einzelne" verzerrte Verteilung aussieht. Hier ist ein Beispiel (mit R):β1σ2yichyich

xi <- rbinom(10000, 1, .2)
yi <- 0 + 3 * xi + rnorm(10000, .7)
hist(yi, breaks=20)
qqnorm(yi); qqline(yi)

Es kommt nicht auf die Verteilung von , sondern auf die Verteilung der Fehlerterme.yich

res <- lm(yi ~ xi)
hist(resid(res), breaks=20)
qqnorm(resid(res)); qqline(resid(res))

Und das sieht ganz normal aus - nicht nur im übertragenen Sinne =)

Wolfgang
quelle
"aber die Verteilung der Fehlerausdrücke" Sie meinen hier Residuen nicht Fehlerausdrücke, oder? Weitere Informationen zu
vasili111
7

In Bezug auf die hervorragende Antwort von @Wolfgang sind hier die Diagramme aus seinem R-Code:

Geben Sie hier die Bildbeschreibung ein

Contango
quelle