Scheinbar seriöse Quellen behaupten, dass die abhängige Variable normal verteilt sein muss:
Modellannahmen: ist normalverteilt, Fehler sind normalverteilt, und unabhängig, und ist fest und konstante Varianz .
Zweitens erfordert die lineare Regressionsanalyse, dass alle Variablen multivariate Normalen sind.
Dies ist sinnvoll, wenn die Antwortvariable normalverteilt ist
Gibt es eine gute Erklärung dafür, wie oder warum sich dieses Missverständnis verbreitet hat? Ist die Herkunft bekannt?
X <- runif(n=100)
undY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
spielen Sie dann mit Histogrammen, um sich davon zu überzeugen, dass weder X noch Y normal verteilt sind. Dannsummary(lm(Y ~ X))
achten Sie sehr genau darauf, wie nahe der Achsenabschnitt an 3 und die Steigung von X an 0,5 liegt. Die Annahme ist, dass die Fehler normal verteilt sind.Antworten:
"Y muss normal verteilt sein"
Muss?
In den Fällen, in denen Sie erwähnen, dass es sich um eine schlampige Sprache handelt (Abkürzung für "Der Fehler in Y muss normal verteilt sein" ), aber sie sagen nicht wirklich (nachdrücklich), dass die Antwort normal verteilt sein muss oder zumindest nicht mir, dass ihre Worte so gedacht waren.
Das Penn State Kursmaterial
spricht von "einer stetigen Variablen "Y , aber auch von " " wie in wobei wir betrachten , was in den Kommentaren als "bedingt" bezeichnet wird, normalerweise verteilt,Yi E(Yi)=β0+β1xi Yi
Der Artikel verwendet und synonym. Während des gesamten Artikels spricht man über die 'Verteilung von Y', zum Beispiel:Y Yi
bei der Erklärung einer Variante von GLM (binäre logistische Regression),
in irgendeiner Definition
an einem anderen Punkt beziehen sie sich jedoch auch auf anstelle von :Yi Y
Die Webseite für Statistiklösungen
ist eine extrem kurze, vereinfachte, stilisierte Beschreibung. Ich bin mir nicht sicher, ob Sie das ernst nehmen sollten. Zum Beispiel spricht es über
das ist also nicht nur die Antwortvariable,
und auch der "multivariate" Deskriptor ist vage. Ich bin nicht sicher, wie ich das interpretieren soll.
Der Wikipedia-Artikel
hat einen zusätzlichen Kontext in Klammern erklärt:
Dieser "kein fester Nullwert" scheint auf den Fall hinzudeuten, dass eine Linearkombination wenn eine unendliche Domäne hat (von minus unendlich bis plus unendlich), während oft viele Variablen einige haben Endlicher Grenzwert (z. B. Anzahl, die keine negativen Werte zulässt).y+ϵ ϵ∼N(0,σ)
Die besondere Linie hat hinzugefügt 8. März 2012 , aber beachten Sie, dass die erste Zeile des Artikels Wikipedia noch liest „eine flexible Verallgemeinerung der gewöhnlichen linearen Regression , die für die Antwortvariablen ermöglicht , die haben Fehlerverteilungsmodelle andere als eine normale Verteilung“ und ist nicht so viel (nicht überall) falsch.
Fazit
Also, auf der Grundlage dieser drei Beispiele (was in der Tat könnte erzeugen Missverständnisse oder zumindest könnte falsch verstanden werden) Ich würde nicht sagen , dass „diese falsche Vorstellung Ausbreitung hat“ . Zumindest scheint es mir nicht die Absicht dieser drei Beispiele zu sein, zu argumentieren, dass Y normalverteilt sein muss (obwohl ich mich erinnere, dass dieses Problem hier zuvor beim Stapelaustausch, dem Austausch zwischen normalverteilten Fehlern und normalverteilten Antwortvariablen aufgetreten ist) ist einfach zu machen).
Die Annahme, dass "Y muss normal verteilt sein", scheint mir also kein verbreiteter Glaube / Irrtum zu sein (wie bei etwas, das sich wie ein roter Hering ausbreitet), sondern eher ein häufiger Fehler (der nicht verbreitet, sondern jedes Mal unabhängig gemacht wird) ).
Zusätzlicher Kommentar
Ein Beispiel für den Fehler auf dieser Website ist die folgende Frage
Was ist, wenn die Residuen normal verteilt sind, y jedoch nicht?
Ich würde dies als Anfängerfrage betrachten. Es ist nicht in den Materialien wie dem Kursmaterial von Penn State oder der Wikipedia-Website enthalten und hat kürzlich in den Kommentaren das Buch „Erweiterung der linearen Regression mit R“ erwähnt.
Die Autoren dieser Werke verstehen das Material richtig. In der Tat verwenden sie Ausdrücke wie "Y muss normal verteilt sein", aber basierend auf dem Kontext und den verwendeten Formeln können Sie sehen, dass sie alle "Y, bedingt durch X, muss normal verteilt sein" und nicht "das marginale Y muss" bedeuten normal verteilt sein '. Sie verstehen die Idee selbst nicht falsch, und zumindest ist die Idee unter Statistikern und Personen, die Bücher und andere Kursmaterialien schreiben, nicht weit verbreitet. Ein falsches Lesen ihrer mehrdeutigen Worte kann jedoch tatsächlich zu einer falschen Auffassung führen.
quelle
Wir unterrichten Studenten in der Regel eine "vereinfachte" Version der Statistik in vielen Disziplinen. Ich bin Psychologe, und wenn ich Studenten sagen will, dass p- Werte "die Wahrscheinlichkeit der Daten - oder extremere Daten - sind, wenn die Nullhypothese zutrifft", sagen mir Kollegen, dass ich mehr Details abdecke, als ich brauche zudecken. Dass ich es schwieriger mache, als es sein muss, etc. Da Schüler in Klassen ein so breites Spektrum an Komfort (oder Mangel an Komfort) mit Statistiken haben, halten es Ausbilder im Allgemeinen einfach: "Wir halten es für eine verlässliche Feststellung, wenn p <.05 ", anstatt ihnen die tatsächliche Definition eines p- Wertes zu geben.
Ich denke, hier liegt die Erklärung dafür, warum sich das Missverständnis verbreitet hat. Zum Beispiel können Sie das Modell schreiben als:
Dies kann wie folgt umgeschrieben werden:
Dies bedeutet, dass "Y, bedingt durch X, normalerweise mit einem Mittelwert der vorhergesagten Werte und einer gewissen Varianz verteilt ist."
Dies ist schwer zu erklären, daher könnte man in Kurzform sagen: "Y muss normal verteilt sein." Oder als es ihnen ursprünglich erklärt wurde, haben die Leute den bedingten Teil falsch verstanden - da er ehrlich gesagt verwirrend ist.
In dem Bestreben, die Dinge nicht schrecklich kompliziert zu machen, vereinfachen die Ausbilder nur das, was sie sagen, um die meisten Schüler nicht zu sehr zu verwirren. Und dann setzen die Menschen ihre statistische Ausbildung oder statistische Praxis mit diesem Missverständnis fort. Ich selbst habe das Konzept erst vollständig verstanden, als ich mit der Bayes'schen Modellierung in Stan angefangen habe. Dazu müssen Sie Ihre Annahmen folgendermaßen aufschreiben:
Außerdem ist es in vielen Statistikpaketen mit einer grafischen Benutzeroberfläche (mit Blick auf Sie, SPSS) einfacher zu überprüfen, ob die Randverteilung normal verteilt ist (einfaches Histogramm), als zu überprüfen, ob die Residuen normal verteilt sind (Regression ausführen, Residuen speichern, Histogramm für diese Residuen erstellen).
Meines Erachtens liegt das Missverständnis vor allem an Lehrern, die versuchen, Details zu entfernen, um zu verhindern, dass die Schüler verwirrt, aufrichtig und verständlich werden, wenn sie es richtig lernen die benutzerfreundlichsten Statistikpakete.
quelle
Die Regressionsanalyse ist für Anfänger schwierig, da es unterschiedliche Ergebnisse gibt, die durch unterschiedliche Startannahmen impliziert werden. Schwächere Startannahmen können einige der Ergebnisse rechtfertigen, aber Sie können stärkere Ergebnisse erzielen, wenn Sie stärkere Annahmen hinzufügen. Personen, die mit der vollständigen mathematischen Ableitung der Ergebnisse nicht vertraut sind, können die erforderlichen Annahmen für ein Ergebnis häufig falsch verstehen, indem sie ihr Modell entweder zu schwach auslegen, um ein erforderliches Ergebnis zu erhalten, oder einige unnötige Annahmen in der Annahme, dass diese für ein Ergebnis erforderlich sind .
Obwohl es möglich ist, stärkere Annahmen hinzuzufügen, um zusätzliche Ergebnisse zu erhalten, befasst sich die Regressionsanalyse mit der bedingten Verteilung des Antwortvektors. Wenn ein Modell darüber hinausgeht, betritt es das Gebiet der multivariaten Analyse und ist nicht unbedingt (nur) ein Regressionsmodell. Die Sache wird durch die Tatsache weiter erschwert, dass es üblich ist, sich auf Verteilungsergebnisse in einer Regression zu beziehen, ohne immer genau anzugeben, dass es sich um bedingte Verteilungen handelt (angesichts der erklärenden Variablen in der Entwurfsmatrix). In Fällen, in denen Modelle über bedingte Verteilungen hinausgehen (indem eine Randverteilung für die erklärenden Vektoren angenommen wird), sollte der Benutzer darauf achten, diesen Unterschied anzugeben. Leider sind die Leute nicht immer vorsichtig damit.
Homoskedastisches lineares Regressionsmodell: Der früheste Ausgangspunkt, der normalerweise verwendet wird, ist die Annahme der Modellform und der ersten beiden Fehlermomente, ohne dass eine Normalität angenommen wird:
Dieser Aufbau reicht aus, um den OLS-Schätzer für die Koeffizienten, den unverzerrten Schätzer für die Fehlervarianz, die Residuen und die Momente aller dieser Zufallsgrößen zu erhalten (abhängig von den erklärenden Variablen in der Entwurfsmatrix). Es erlaubt Ihnen nicht, die vollständige bedingte Verteilung dieser Größen zu erhalten, aber es erlaubt es, asymptotische Verteilungen anzusprechen, wenn groß ist und einige zusätzliche Annahmen über das einschränkende Verhalten von . Um weiter zu gehen, ist es üblich, eine spezifische Verteilungsform für den Fehlervektor anzunehmen.n x
Normale Fehler: Die meisten Behandlungen des homoskedastischen linearen Regressionsmodells gehen davon aus, dass der Fehlervektor normalverteilt ist, was in Kombination mit den Momentannahmen ergibt:
Diese zusätzliche Annahme reicht aus, um sicherzustellen, dass der OLS - Schätzer für die Koeffizienten der MLE für das Modell ist. Außerdem bedeutet dies, dass der Koeffizientenschätzer und die Residuen normal verteilt sind und der Schätzer für die Fehlervarianz eine skalierte Chi - Quadrat - Verteilung (alle) aufweist an die erklärenden Variablen in der Entwurfsmatrix geknüpft). Es stellt auch sicher, dass der Antwortvektor bedingt normal verteilt ist. Dies ergibt Verteilungsergebnisse, die von den erklärenden Variablen in der Analyse abhängig sind, was die Konstruktion von Konfidenzintervallen und Hypothesentests ermöglicht. Wenn der Analytiker Erkenntnisse über die marginale Verteilung der Antwort gewinnen möchte, muss er weiter gehen und eine Verteilung für die erklärenden Variablen im Modell annehmen.
Gemeinsam normale erklärende Variablen: Einige Behandlungen des homoskedastischen linearen Regressionsmodells gehen über Standardbehandlungen hinaus und bedingen keine festen erklärenden Variablen. (Dies ist wahrscheinlich ein Übergang von der Regressionsmodellierung in die multivariate Analyse.) Das häufigste Modell dieser Art geht davon aus, dass es sich bei den erklärenden Vektoren um IID-Gelenk-Normal-Zufallsvektoren handelt. Wenn der te erklärende Vektor ist (die te Zeile der Entwurfsmatrix), haben wir:X(i) i i
Diese zusätzliche Annahme reicht aus, um sicherzustellen, dass der Antwortvektor geringfügig normal verteilt ist. Dies ist eine starke Annahme und wird in der Regel bei den meisten Problemen nicht auferlegt. Wie bereits erwähnt, führt dies das Modell außerhalb des Gebiets der Regressionsmodellierung in die multivariate Analyse ein.
quelle