Normalität der abhängigen Variablen = Normalität der Residuen?

34

Dieses Problem scheint die ganze Zeit seinen hässlichen Kopf zu haben, und ich versuche, es für mein eigenes Verständnis von Statistik (und Vernunft!) Zu enthaupten.

Die Annahmen allgemeiner linearer Modelle (t-Test, ANOVA, Regression usw.) beinhalten die "Annahme der Normalität", aber ich habe festgestellt, dass dies selten klar beschrieben wird.

Ich stoße oft auf Statistiklehrbücher / -handbücher usw., in denen ich lediglich feststelle, dass die "Annahme der Normalität" für jede Gruppe gilt (dh kategoriale X-Variablen), und wir sollten Abweichungen von der Normalität für jede Gruppe untersuchen .

Fragen :

  1. bezieht sich die Annahme auf die Werte von Y oder die Residuen von Y?

  2. Ist es für eine bestimmte Gruppe möglich, eine stark nicht normale Verteilung der Y- Werte (z. B. verzerrt) zu haben, ABER eine annähernd (oder zumindest normalere) Verteilung der Reste von Y?

    Andere Quellen beschreiben, dass sich die Annahme auf die Residuen des Modells bezieht (in Fällen, in denen es Gruppen gibt, z. B. t-Tests / ANOVA), und wir sollten Abweichungen von der Normalität dieser Residuen untersuchen (dh nur ein QQ-Diagramm / Test) Lauf).

  3. Bedeutet Normalität der Residuen für das Modell Normalität der Residuen für die Gruppen ? Mit anderen Worten, sollten wir nur die Modellreste untersuchen (entgegen den Anweisungen in vielen Texten)?

    Um dies in einen Kontext zu stellen, betrachten Sie dieses hypothetische Beispiel:

    • Ich möchte die Baumhöhe (Y) zwischen zwei Populationen (X) vergleichen.
    • In einer Population ist die Verteilung von Y stark nach rechts geneigt (dh die meisten Bäume sind kurz, nur sehr wenige hoch), während die andere Population praktisch normal ist
    • Die Körpergröße ist in der normalverteilten Bevölkerung insgesamt höher (was darauf hindeutet, dass es einen „echten“ Unterschied gibt).
    • Die Transformation der Daten verbessert die Verteilung der ersten Population nicht wesentlich.
  4. Ist es erstens gültig, die Gruppen angesichts der radikal unterschiedlichen Höhenverteilungen zu vergleichen?

  5. Wie gehe ich hier an die "Normalitätsannahme" heran? Die Rückrufhöhe in einer Population ist normalerweise nicht verteilt. Untersuche ich Residuen für beide Populationen separat ODER Residuen für das Modell (t-Test)?


Bitte beziehen Sie sich bei Antworten auf Fragen nach Nummer. Die Erfahrung hat gezeigt, dass sich Leute leicht verlaufen oder ablenken (besonders ich!). Denken Sie daran, ich bin kein Statistiker; obwohl ich einigermaßen konzeptuelles (dh kein technisches!) Verständnis der Statistik habe.

PS, ich habe die Archive durchsucht und die folgenden Themen gelesen, die mein Verständnis nicht gefestigt haben:

DeanP
quelle
2
Frage 1) ist die Annahme , auf die Werte von Y beziehen oder die Reste von Y? “ - streng genommen weder , obwohl das zweite ist das , was Sie überprüfen . Als normal wird entweder der nicht beobachtbare Fehler oder gleichbedeutend die bedingte Verteilung von Y bei jeder Kombination von Prädiktoren angenommen. Die bedingungslose Verteilung von Y wird nicht als normal angenommen.
Glen_b
1
+1 Vielen Dank, dass Sie sich die Mühe gemacht haben, einige der (vielen) Themen, in denen dieses Problem auftritt, zu organisieren und zu konsolidieren. Es ist definitiv eine FAQ.
whuber
Ich möchte mich nur für diese Frage bedanken. Sowohl für das behandelte Thema als auch für die Organisation und Verknüpfung. Mir ist bewusst, dass Sie dies vor langer Zeit gefragt haben, aber es ist nur eine sehr gute Frage!
hmmmm

Antworten:

14

Ein Punkt, der Ihr Verständnis verbessern kann:

Wenn normalverteilt ist und und Konstanten sind, dann ist ebenfalls normalverteilt (jedoch mit einem möglicherweise anderen Mittelwert und einer anderen Varianz).a b y = x - axeinby=x-einb

Da die Residuen nur die y-Werte minus dem geschätzten Mittelwert sind (standardisierte Residuen werden auch durch eine Schätzung des Standardfehlers dividiert), sind die Residuen auch und umgekehrt, wenn die y-Werte normal verteilt sind. Wenn wir also über Theorie oder Annahmen sprechen, spielt es keine Rolle, worüber wir sprechen, weil das eine das andere impliziert.

Für die Fragen führt dies also zu:

  1. ja, auch beides
  2. Nein (die einzelnen y-Werte stammen jedoch aus Normalen mit unterschiedlichen Mitteln, wodurch sie bei einer Gruppierung nicht normal aussehen können.)
  3. Normalität von Residuen bedeutet Normalität von Gruppen. In einigen Fällen kann es jedoch sinnvoll sein, Residuen oder y-Werte nach Gruppen zu untersuchen (das Zusammenfassen kann die in einer Gruppe offensichtliche Nicht-Normalität verdecken) oder in anderen Fällen zusammenzusehen (nicht genügend Beobachtungen) pro Gruppe zu bestimmen, aber alles zusammen kann man sagen).
  4. Dies hängt davon ab, was Sie unter Vergleichen verstehen, wie groß Ihre Stichprobe ist und wie Sie sich für "Ungefähr" fühlen. Die Normalitätsannahme wird nur für Tests / Intervalle der Ergebnisse benötigt, Sie können das Modell anpassen und die Punktschätzungen beschreiben, ob Normalität vorliegt oder nicht. Der zentrale Grenzwertsatz besagt, dass bei ausreichender Stichprobengröße die Schätzungen annähernd normal sind, auch wenn die Residuen nicht vorhanden sind.
  5. Es hängt davon ab, welche Frage Sie zu beantworten versuchen und wie "ungefähr" Sie zufrieden sind.

Ein weiterer wichtiger Punkt, der zu verstehen ist (der beim Lernen jedoch häufig in Konflikt gerät), ist, dass es hier zwei Arten von Residuen gibt: Die theoretischen Residuen, die die Unterschiede zwischen den beobachteten Werten und dem wahren theoretischen Modell darstellen, und die beobachteten Residuen, die die Unterschiede darstellen zwischen den beobachteten Werten und den Schätzungen des aktuell angepassten Modells. Wir gehen davon aus, dass die theoretischen Residuen normal sind. Die beobachteten Residuen sind nicht i, i oder normalverteilt (haben aber einen Mittelwert von 0). Aus praktischen Gründen schätzen die beobachteten Residuen jedoch die theoretischen Residuen und sind daher immer noch für die Diagnose nützlich.

Greg Snow
quelle
Weitere Informationen über Fehler und Residuen, halte ich es für sinnvoll ist , diesen Artikel auf dem Wiki zu lesen en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster
1
y-y^
yy^-
Zu Q1 (was in der Antwort auf Q2 quasi bestätigt wird): Es sind eindeutig die Residuen und überhaupt nicht die Ys. Wenn sich die Kovariaten zwischen den Beobachtungen unterscheiden, kann es leicht zu einer bimodalen Randverteilung kommen, obwohl die Residuen normal sind. Man kann also nicht einfach die Ys betrachten, sondern nur die Residuen.
Björn
@ Bjorn, das ist eine gute Klarstellung. Die y-Variablen sind normal, abhängig von x, daher sind die rohen y-Werte eine Mischung aus Normalen und eine Darstellung nur der y-Werte zeigt möglicherweise keine Normalität, obwohl sie der Annahme entsprechen, dass sie unter x normal sind. Für die Diagnose verwenden wir im Allgemeinen die Residuen (da der bedingte Teil größtenteils entfernt wurde). Die Annahme der (bedingten) Normalität bezieht sich sowohl auf die theoretischen Residuen als auch auf die y-Werte.
Greg Snow
7

Die kurzen Antworten:

  1. Residuen
  2. Nein
  3. Abhängig davon haben beide Ansätze Vor- und Nachteile
  4. warum nicht? Es kann sinnvoller sein, Mediane statt Mittelwerte zu vergleichen.
  5. Nach Ihren Angaben ist die Normalitätsannahme wahrscheinlich verletzt

Die längere Antwort:

Die Annahme ist, dass die abhängige Variable (y) normal verteilt ist, jedoch mit unterschiedlichen Mitteln für verschiedene Gruppen. Wenn Sie nur die Verteilung von y zeichnen, kann dies leicht zu einer Abweichung von Ihrer normalen glockenförmigen Kurve führen. Die Residuen repräsentieren die Verteilung von y mit diesen Unterschieden in den Mitteln "herausgefiltert".

Alternativ können Sie die Verteilung von y in jeder Gruppe separat betrachten. Dadurch werden auch die Mittelwertunterschiede zwischen den Gruppen herausgefiltert. Der Vorteil ist, dass Sie auf diese Weise auch Informationen über die Verteilung in jeder Gruppe erhalten, was in Ihrem Fall relevant erscheint. Der Nachteil ist, dass jede Gruppe weniger Beobachtungen enthält als der kombinierte Datensatz, den Sie erhalten würden, wenn Sie die Residuen betrachten. Außerdem können Sie Gruppen nicht sinnvoll vergleichen, wenn Sie viele Gruppen haben, z. B. weil Sie viele Prädiktorvariablen in Ihr Modell oder eine (quasi) kontinuierliche Prädiktorvariable in Ihr Modell eingegeben haben. Wenn Ihr Modell also nur aus einer kategorialen Prädiktorvariablen besteht und die Anzahl der Beobachtungen in jeder Gruppe groß genug ist, kann es sinnvoll sein, die Verteilung von y in jeder Gruppe separat zu untersuchen.

Maarten Buis
quelle
7
Streng genommen handelt es sich bei den Residuen nur um Schätzungen der unbekannten und nicht erkennbaren Fehler oder Störungen. Selbst wenn die Normalität im Prinzip korrekt ist, können Sie in der Praxis keine genau normalen Residuen erhalten. Noch wichtiger ist, dass bei diesen Methoden die Normalität der Fehler die am wenigsten wichtige Annahme ist!
Nick Cox
@NickCox (+1) stimmte in beiden Punkten überein
Maarten Buis
1

Y.X
XY.


eY.ϵX
Y.Y.|X-N(Xβ,σ2)
XY.Y.|X


Y.X

Frage 3)
Für die Verwendung von linearen Modellen, die Normalität erfordern, ist es wichtig, dass Residuen, die nicht normal sind, ob sie sich in einer Gruppe befinden oder nicht, ein wichtiger Indikator dafür sind, dass Ihr Modell möglicherweise nicht zu Ihren Daten passt.
Wenn Sie eine ANOVA durchführen, müssen Ihre allgemeinen Residuen natürlich nicht normal (oder eher homoskedastisch) sein, das würde keinen Sinn ergeben. In einer Regression ist es jedoch besser, ein Modell zu haben, bei dem die gesamten normalen Residuen vorliegen. Wenn nicht, sind Ihre Intervallschätzer und -tests falsch. Dies kann der Fall sein, wenn bestimmte Autokorrelationen vorliegen oder eine variable Verzerrung fehlt. Wenn das Modell zu 100% korrekt ist (einschließlich eventuell struktureller Brüche und Gewichtung, falls erforderlich), ist es nicht weit hergeholt, normale Fehlerausdrücke anzunehmen, auch wenn diese um 0 zentriert sind ist groß genug Es gibt keine endgültige Antwort, aber für einen zu 100% korrekten Ansatz mit Ja sollten alle Residuen normal sein.

Frage 4 & 5)
Es kommt darauf an, was Sie mit Vergleichen meinen. Unter der Annahme normaler Fehlerbedingungen können Sie anhand der Annahme von zwei verschiedenen Verteilungen testen. Sie können die GLS-Schätzung auch für eine Regression verwenden, um die verschiedenen Verteilungsparameter zu berücksichtigen - WENN Sie das richtige Modell haben ... und Ihre Gruppen selbst als Indikator / Binärvariable arbeiten?
Dann wäre es wahrscheinlich sehr schwer zu sagen, dass die Verteilung der Residuen normal sein wird - die Folge ist, dass Sie zwar etwas mit Ihren Daten anfangen können, dies jedoch nicht auf der Basis von regulären OLS geschieht.
Aber es kommt darauf an, was Sie mit den Daten machen wollen.


Y.|X

Ich denke, ein guter Ansatz wäre es, sich mit der Algebra des regulären OLS zu befassen und sich dabei auf die resultierenden Verteilungen zu konzentrieren.

IMA
quelle