Woher kommt der Irrtum, dass Y normalverteilt sein muss?

45

Scheinbar seriöse Quellen behaupten, dass die abhängige Variable normal verteilt sein muss:

Modellannahmen: ist normalverteilt, Fehler sind normalverteilt, und unabhängig, und ist fest und konstante Varianz .YeiN(0,σ2)Xσ2

Penn State, STAT 504 Analyse diskreter Daten

Zweitens erfordert die lineare Regressionsanalyse, dass alle Variablen multivariate Normalen sind.

StatisticsSolutions, Annahmen der linearen Regression

Dies ist sinnvoll, wenn die Antwortvariable normalverteilt ist

Wikipedia, verallgemeinertes lineares Modell

Gibt es eine gute Erklärung dafür, wie oder warum sich dieses Missverständnis verbreitet hat? Ist die Herkunft bekannt?

verbunden

timwiz
quelle
17
Traurig. Sie tun hier eine gute Tat ...
Jbowman
7
Ich kenne keine Situation, in der eine lineare Regression verwendet wird, für die die marginale Verteilung von erforderlich ist , oder bei der das Gelenk aller Variablen multivariate Normalen sein muss. Das sieht für mich nach falschen Vorstellungen aus. Y
Matthew Drury
8
@MichaelChernick "Y ist normal verteilt" ist offensichtlich falsch. Probieren Sie es in R: aus X <- runif(n=100)und Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)spielen Sie dann mit Histogrammen, um sich davon zu überzeugen, dass weder X noch Y normal verteilt sind. Dann summary(lm(Y ~ X))achten Sie sehr genau darauf, wie nahe der Achsenabschnitt an 3 und die Steigung von X an 0,5 liegt. Die Annahme ist, dass die Fehler normal verteilt sind.
Alexis
9
@Alexis Ich glaube, Michael hat versucht zu sagen, dass die multivariaten Normalitätsannahmen ausreichend, aber nicht notwendig sind. So sollte man das Wikipedia-Zitat lesen. Das zweite Zitat ist offensichtlich falsch darin, diese Annahmen für notwendig zu erklären. Das erste Zitat ist mehrdeutig, könnte aber großzügig in dem von Michael erläuterten Sinne gelesen werden.
Whuber
6
Ich sagte nur, dass die Annahme der Normalität bestimmte Eigenschaften impliziert. Wenn Sie beispielsweise bei einer einfachen linearen Regression davon ausgehen, dass die Fehlerterme bei einem Mittelwert von Null und einer konstanten Varianz normal sind, ist die Schätzung der kleinsten Quadrate der Regressionsparameter höchstwahrscheinlich. Alle Annahmen mit Ausnahme der kleinsten Quadrate der Normalität beizubehalten, ist keine maximale Wahrscheinlichkeit mehr, aber dennoch eine minimale, unvoreingenommene Varianz.
Michael Chernick

Antworten:

13

"Y muss normal verteilt sein"

Muss?


In den Fällen, in denen Sie erwähnen, dass es sich um eine schlampige Sprache handelt (Abkürzung für "Der Fehler in Y muss normal verteilt sein" ), aber sie sagen nicht wirklich (nachdrücklich), dass die Antwort normal verteilt sein muss oder zumindest nicht mir, dass ihre Worte so gedacht waren.

Das Penn State Kursmaterial

spricht von "einer stetigen Variablen "Y , aber auch von " " wie in wobei wir betrachten , was in den Kommentaren als "bedingt" bezeichnet wird, normalerweise verteilt,Yi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

Der Artikel verwendet und synonym. Während des gesamten Artikels spricht man über die 'Verteilung von Y', zum Beispiel: YYi

  • bei der Erklärung einer Variante von GLM (binäre logistische Regression),

    Zufällige Komponente : Es wird angenommen, dass die Verteilung von , ...YBinomial(n,π)

  • in irgendeiner Definition

    Zufällige Komponente - bezieht sich auf die Wahrscheinlichkeitsverteilung der Antwortvariablen ( ); zB Normalverteilung für in der linearen Regression oder Binomialverteilung für in der binären logistischen Regression.YYY

an einem anderen Punkt beziehen sie sich jedoch auch auf anstelle von :YiY

  • Die abhängige Variable muss NICHT normalverteilt sein, sondern nimmt normalerweise eine Verteilung aus einer Exponentialfamilie an (z. B. Binomial, Poisson, Multinomial, Normal, ...).Yi

Die Webseite für Statistiklösungen

ist eine extrem kurze, vereinfachte, stilisierte Beschreibung. Ich bin mir nicht sicher, ob Sie das ernst nehmen sollten. Zum Beispiel spricht es über

..erfordert, dass alle Variablen multivariat normal sind ...

das ist also nicht nur die Antwortvariable,

und auch der "multivariate" Deskriptor ist vage. Ich bin nicht sicher, wie ich das interpretieren soll.

Der Wikipedia-Artikel

hat einen zusätzlichen Kontext in Klammern erklärt:

Eine gewöhnliche lineare Regression sagt den erwarteten Wert einer gegebenen unbekannten Größe (die Antwortvariable, eine Zufallsvariable) als eine lineare Kombination einer Menge beobachteter Werte (Prädiktoren) voraus . Dies impliziert, dass eine konstante Änderung eines Prädiktors zu einer konstanten Änderung der Antwortvariablen führt (dh ein lineares Antwortmodell). Dies ist angemessen, wenn die Antwortvariable eine Normalverteilung aufweist (intuitiv, wenn eine Antwortvariable ohne festen "Nullwert" im Wesentlichen unbegrenzt in jede Richtung variieren kann, oder allgemeiner für jede Größe, die nur um einen relativ kleinen Betrag variiert, z. B. Mensch Höhen).

Dieser "kein fester Nullwert" scheint auf den Fall hinzudeuten, dass eine Linearkombination wenn eine unendliche Domäne hat (von minus unendlich bis plus unendlich), während oft viele Variablen einige haben Endlicher Grenzwert (z. B. Anzahl, die keine negativen Werte zulässt).y+ϵϵN(0,σ)

Die besondere Linie hat hinzugefügt 8. März 2012 , aber beachten Sie, dass die erste Zeile des Artikels Wikipedia noch liest „eine flexible Verallgemeinerung der gewöhnlichen linearen Regression , die für die Antwortvariablen ermöglicht , die haben Fehlerverteilungsmodelle andere als eine normale Verteilung“ und ist nicht so viel (nicht überall) falsch.


Fazit

Also, auf der Grundlage dieser drei Beispiele (was in der Tat könnte erzeugen Missverständnisse oder zumindest könnte falsch verstanden werden) Ich würde nicht sagen , dass „diese falsche Vorstellung Ausbreitung hat“ . Zumindest scheint es mir nicht die Absicht dieser drei Beispiele zu sein, zu argumentieren, dass Y normalverteilt sein muss (obwohl ich mich erinnere, dass dieses Problem hier zuvor beim Stapelaustausch, dem Austausch zwischen normalverteilten Fehlern und normalverteilten Antwortvariablen aufgetreten ist) ist einfach zu machen).

Die Annahme, dass "Y muss normal verteilt sein", scheint mir also kein verbreiteter Glaube / Irrtum zu sein (wie bei etwas, das sich wie ein roter Hering ausbreitet), sondern eher ein häufiger Fehler (der nicht verbreitet, sondern jedes Mal unabhängig gemacht wird) ).


Zusätzlicher Kommentar

Ein Beispiel für den Fehler auf dieser Website ist die folgende Frage

Was ist, wenn die Residuen normal verteilt sind, y jedoch nicht?

Ich würde dies als Anfängerfrage betrachten. Es ist nicht in den Materialien wie dem Kursmaterial von Penn State oder der Wikipedia-Website enthalten und hat kürzlich in den Kommentaren das Buch „Erweiterung der linearen Regression mit R“ erwähnt.

Die Autoren dieser Werke verstehen das Material richtig. In der Tat verwenden sie Ausdrücke wie "Y muss normal verteilt sein", aber basierend auf dem Kontext und den verwendeten Formeln können Sie sehen, dass sie alle "Y, bedingt durch X, muss normal verteilt sein" und nicht "das marginale Y muss" bedeuten normal verteilt sein '. Sie verstehen die Idee selbst nicht falsch, und zumindest ist die Idee unter Statistikern und Personen, die Bücher und andere Kursmaterialien schreiben, nicht weit verbreitet. Ein falsches Lesen ihrer mehrdeutigen Worte kann jedoch tatsächlich zu einer falschen Auffassung führen.

Sextus Empiricus
quelle
3
+1 Das heißt: Ich denke, wir haben alle schon viele Fragen gesehen, die die marginale Normalität von Y betonen ... es gibt eine gewisse Verbreitung von Missverständnissen. :)
Alexis
Ja, ich bin damit einverstanden, dass die Annahme von "normal verteilt" häufig vorkommt (ich konnte Beispiele nicht leicht finden, aber das könnte daran liegen, dass die Leute diese Dinge zwischen den Zeilen und nicht mit einfachen Schlüsselwörtern beschreiben). Ich glaube jedoch, dass dies eher etwas „Gemeines“ ist, nicht etwas, das so sehr „ ausgebreitet “ wird. Und zumindest sind die drei vom OP angeführten Beispiele nicht sehr stark (nicht stark im Sinne eines Hinweises auf die Ausbreitung des Missverständnisses, obwohl sie den pathologischen Sprachgebrauch beschreiben und wie die Fehler entstehen können).
Sextus Empiricus
@Martijn Weterings: Ich möchte Ihrer Aussage "Ich würde nicht sagen, dass sich dieses Missverständnis verbreitet hat" widersprechen. In seinem Buch "Die lineare Regression mit R erweitern", das in einer Reihe von Programmen für die Absolventenstatistik als erforderliche Lektüre verwendet wird, erklärt Julian Faraway auf Seite xi im Vorwort dieses Buches: "Das lineare Standardmodell kann keine nicht normalen Antworten verarbeiten, z als Anzahl oder Proportionen ".
ColorStatistics
@ColorStatistics, beachte den Kontext und die Interpretation, die ich "weit verbreitet" gebe (wie in etwas, das sich wie ein roter Hering ausbreitet). Menschen machen Fehler, und diese Fehler können allgegenwärtig sein. Es ist jedoch nicht so, als würde man sich wie beim Kopieren ausbreiten (ein Beispiel für einen Fehler, der kopiert wurde , war die Verwendung von Freiheitsgraden in Kontingenztabellen anstelle von , die zwischen 1900 und 1920 aufgetreten sind) .....n1(r1)(c1)
Sextus Empiricus
1
@ColorStatistics, ich habe gerade einige Teile des Textes durchgesehen und es ist klar, dass der Autor nicht verwirrt ist (basierend auf den Formeln, die nicht mehrdeutig sind). ZB beginnt das Buch sogar mit: " wo normalerweise verteilt ist"y=β0+β1x1+...βpxp+ϵϵ . In der Tat verwendet der Autor häufig solche Ausdrücke wie "die Antwort ist ... verteilt". Aber das heißt, die bedingte Antwort. Ich betrachte dies eher als mangelhaftes Schreiben, und der Verfasser bedeutet nicht, wörtlich zu sagen, dass die marginale Antwort die bestimmte Verteilung haben sollte, die erwähnt wird.
Sextus Empiricus
29

Gibt es eine gute Erklärung dafür, wie / warum sich dieses Missverständnis verbreitet hat? Ist die Herkunft bekannt?

Wir unterrichten Studenten in der Regel eine "vereinfachte" Version der Statistik in vielen Disziplinen. Ich bin Psychologe, und wenn ich Studenten sagen will, dass p- Werte "die Wahrscheinlichkeit der Daten - oder extremere Daten - sind, wenn die Nullhypothese zutrifft", sagen mir Kollegen, dass ich mehr Details abdecke, als ich brauche zudecken. Dass ich es schwieriger mache, als es sein muss, etc. Da Schüler in Klassen ein so breites Spektrum an Komfort (oder Mangel an Komfort) mit Statistiken haben, halten es Ausbilder im Allgemeinen einfach: "Wir halten es für eine verlässliche Feststellung, wenn p <.05 ", anstatt ihnen die tatsächliche Definition eines p- Wertes zu geben.

Ich denke, hier liegt die Erklärung dafür, warum sich das Missverständnis verbreitet hat. Zum Beispiel können Sie das Modell schreiben als:

Y=β0+β1X+ϵ wobeiϵN(0,σϵ2)

Dies kann wie folgt umgeschrieben werden:

Y|XN(β0+β1X,σϵ2)

Dies bedeutet, dass "Y, bedingt durch X, normalerweise mit einem Mittelwert der vorhergesagten Werte und einer gewissen Varianz verteilt ist."

Dies ist schwer zu erklären, daher könnte man in Kurzform sagen: "Y muss normal verteilt sein." Oder als es ihnen ursprünglich erklärt wurde, haben die Leute den bedingten Teil falsch verstanden - da er ehrlich gesagt verwirrend ist.

In dem Bestreben, die Dinge nicht schrecklich kompliziert zu machen, vereinfachen die Ausbilder nur das, was sie sagen, um die meisten Schüler nicht zu sehr zu verwirren. Und dann setzen die Menschen ihre statistische Ausbildung oder statistische Praxis mit diesem Missverständnis fort. Ich selbst habe das Konzept erst vollständig verstanden, als ich mit der Bayes'schen Modellierung in Stan angefangen habe. Dazu müssen Sie Ihre Annahmen folgendermaßen aufschreiben:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Außerdem ist es in vielen Statistikpaketen mit einer grafischen Benutzeroberfläche (mit Blick auf Sie, SPSS) einfacher zu überprüfen, ob die Randverteilung normal verteilt ist (einfaches Histogramm), als zu überprüfen, ob die Residuen normal verteilt sind (Regression ausführen, Residuen speichern, Histogramm für diese Residuen erstellen).

Meines Erachtens liegt das Missverständnis vor allem an Lehrern, die versuchen, Details zu entfernen, um zu verhindern, dass die Schüler verwirrt, aufrichtig und verständlich werden, wenn sie es richtig lernen die benutzerfreundlichsten Statistikpakete.

Mark White
quelle
2
Ich denke du hast recht. Viele Menschen verstehen den bedingten Teil nicht. Sie denken einfach normal verteilt.
SmallChess
3
Ich bin damit einverstanden, dass dies einer der Modi ist, in denen dieser Fehler auftritt / sich ausbreitet. Das Kursmaterial von Penn State scheint mir jedoch nicht auf diese "absichtliche" Vereinfachung zurückzuführen zu sein und ist auch auf das schlampige Schreiben von Notationen zurückzuführen. Es ist ein bisschen wie bei winzigen (Kurs-) Noten. Oder wie Kommentare zum Stapelaustausch, Vereinfachungen in der Sprache. An einigen Stellen verwenden sie die richtigen Wörter. (Persönlich sind meine Schemata / Diagramme besser als meine Wörter / Formeln, aber das bedeutet nicht, dass das, was ich schreibe, wenn es falsch ist, notwendigerweise eine falsche Idee ist)
Sextus Empiricus
1
@MartijnWeterings Agreed - Es ist sehr leicht, jemanden zu verwirren, indem er keine bestimmte Sprache verwendet. Es ist schwierig, in so abstrakten wie statistischen Annahmen immer spezifisch mit Ihrer Sprache umzugehen, und viele kluge Köpfe machen einfache Fehler, was zu weit verbreiteten Missverständnissen wie diesen führt.
Mark White
1
MarkWhite, ich schätze die Aufmerksamkeit, die Sie unserer Lehre widmen, sehr. Ich denke, das spricht in erheblichem Maße für das Interesse des OP an der "Verbreitung von Missverständnissen" (zusätzlich zu den Nuancen dessen, was ein Missverständnis ist und was nicht) ).
Alexis
16

Die Regressionsanalyse ist für Anfänger schwierig, da es unterschiedliche Ergebnisse gibt, die durch unterschiedliche Startannahmen impliziert werden. Schwächere Startannahmen können einige der Ergebnisse rechtfertigen, aber Sie können stärkere Ergebnisse erzielen, wenn Sie stärkere Annahmen hinzufügen. Personen, die mit der vollständigen mathematischen Ableitung der Ergebnisse nicht vertraut sind, können die erforderlichen Annahmen für ein Ergebnis häufig falsch verstehen, indem sie ihr Modell entweder zu schwach auslegen, um ein erforderliches Ergebnis zu erhalten, oder einige unnötige Annahmen in der Annahme, dass diese für ein Ergebnis erforderlich sind .

Obwohl es möglich ist, stärkere Annahmen hinzuzufügen, um zusätzliche Ergebnisse zu erhalten, befasst sich die Regressionsanalyse mit der bedingten Verteilung des Antwortvektors. Wenn ein Modell darüber hinausgeht, betritt es das Gebiet der multivariaten Analyse und ist nicht unbedingt (nur) ein Regressionsmodell. Die Sache wird durch die Tatsache weiter erschwert, dass es üblich ist, sich auf Verteilungsergebnisse in einer Regression zu beziehen, ohne immer genau anzugeben, dass es sich um bedingte Verteilungen handelt (angesichts der erklärenden Variablen in der Entwurfsmatrix). In Fällen, in denen Modelle über bedingte Verteilungen hinausgehen (indem eine Randverteilung für die erklärenden Vektoren angenommen wird), sollte der Benutzer darauf achten, diesen Unterschied anzugeben. Leider sind die Leute nicht immer vorsichtig damit.


Homoskedastisches lineares Regressionsmodell: Der früheste Ausgangspunkt, der normalerweise verwendet wird, ist die Annahme der Modellform und der ersten beiden Fehlermomente, ohne dass eine Normalität angenommen wird:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Dieser Aufbau reicht aus, um den OLS-Schätzer für die Koeffizienten, den unverzerrten Schätzer für die Fehlervarianz, die Residuen und die Momente aller dieser Zufallsgrößen zu erhalten (abhängig von den erklärenden Variablen in der Entwurfsmatrix). Es erlaubt Ihnen nicht, die vollständige bedingte Verteilung dieser Größen zu erhalten, aber es erlaubt es, asymptotische Verteilungen anzusprechen, wenn groß ist und einige zusätzliche Annahmen über das einschränkende Verhalten von . Um weiter zu gehen, ist es üblich, eine spezifische Verteilungsform für den Fehlervektor anzunehmen.nx

Normale Fehler: Die meisten Behandlungen des homoskedastischen linearen Regressionsmodells gehen davon aus, dass der Fehlervektor normalverteilt ist, was in Kombination mit den Momentannahmen ergibt:

ε|xN(0,σ2I).

Diese zusätzliche Annahme reicht aus, um sicherzustellen, dass der OLS - Schätzer für die Koeffizienten der MLE für das Modell ist. Außerdem bedeutet dies, dass der Koeffizientenschätzer und die Residuen normal verteilt sind und der Schätzer für die Fehlervarianz eine skalierte Chi - Quadrat - Verteilung (alle) aufweist an die erklärenden Variablen in der Entwurfsmatrix geknüpft). Es stellt auch sicher, dass der Antwortvektor bedingt normal verteilt ist. Dies ergibt Verteilungsergebnisse, die von den erklärenden Variablen in der Analyse abhängig sind, was die Konstruktion von Konfidenzintervallen und Hypothesentests ermöglicht. Wenn der Analytiker Erkenntnisse über die marginale Verteilung der Antwort gewinnen möchte, muss er weiter gehen und eine Verteilung für die erklärenden Variablen im Modell annehmen.

Gemeinsam normale erklärende Variablen: Einige Behandlungen des homoskedastischen linearen Regressionsmodells gehen über Standardbehandlungen hinaus und bedingen keine festen erklärenden Variablen. (Dies ist wahrscheinlich ein Übergang von der Regressionsmodellierung in die multivariate Analyse.) Das häufigste Modell dieser Art geht davon aus, dass es sich bei den erklärenden Vektoren um IID-Gelenk-Normal-Zufallsvektoren handelt. Wenn der te erklärende Vektor ist (die te Zeile der Entwurfsmatrix), haben wir:X(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Diese zusätzliche Annahme reicht aus, um sicherzustellen, dass der Antwortvektor geringfügig normal verteilt ist. Dies ist eine starke Annahme und wird in der Regel bei den meisten Problemen nicht auferlegt. Wie bereits erwähnt, führt dies das Modell außerhalb des Gebiets der Regressionsmodellierung in die multivariate Analyse ein.

Setzen Sie Monica wieder ein
quelle
1
Ich fand es sehr aufschlussreich, wie Sie nacheinander stärkere Annahmen eingeführt und die Auswirkungen beschrieben haben.
ColorStatistics