Dieses Problem scheint die ganze Zeit seinen hässlichen Kopf zu haben, und ich versuche, es für mein eigenes Verständnis von Statistik (und Vernunft!) Zu enthaupten.
Die Annahmen allgemeiner linearer Modelle (t-Test, ANOVA, Regression usw.) beinhalten die "Annahme der Normalität", aber ich habe festgestellt, dass dies selten klar beschrieben wird.
Ich stoße oft auf Statistiklehrbücher / -handbücher usw., in denen ich lediglich feststelle, dass die "Annahme der Normalität" für jede Gruppe gilt (dh kategoriale X-Variablen), und wir sollten Abweichungen von der Normalität für jede Gruppe untersuchen .
Fragen :
bezieht sich die Annahme auf die Werte von Y oder die Residuen von Y?
Ist es für eine bestimmte Gruppe möglich, eine stark nicht normale Verteilung der Y- Werte (z. B. verzerrt) zu haben, ABER eine annähernd (oder zumindest normalere) Verteilung der Reste von Y?
Andere Quellen beschreiben, dass sich die Annahme auf die Residuen des Modells bezieht (in Fällen, in denen es Gruppen gibt, z. B. t-Tests / ANOVA), und wir sollten Abweichungen von der Normalität dieser Residuen untersuchen (dh nur ein QQ-Diagramm / Test) Lauf).
Bedeutet Normalität der Residuen für das Modell Normalität der Residuen für die Gruppen ? Mit anderen Worten, sollten wir nur die Modellreste untersuchen (entgegen den Anweisungen in vielen Texten)?
Um dies in einen Kontext zu stellen, betrachten Sie dieses hypothetische Beispiel:
- Ich möchte die Baumhöhe (Y) zwischen zwei Populationen (X) vergleichen.
- In einer Population ist die Verteilung von Y stark nach rechts geneigt (dh die meisten Bäume sind kurz, nur sehr wenige hoch), während die andere Population praktisch normal ist
- Die Körpergröße ist in der normalverteilten Bevölkerung insgesamt höher (was darauf hindeutet, dass es einen „echten“ Unterschied gibt).
- Die Transformation der Daten verbessert die Verteilung der ersten Population nicht wesentlich.
Ist es erstens gültig, die Gruppen angesichts der radikal unterschiedlichen Höhenverteilungen zu vergleichen?
Wie gehe ich hier an die "Normalitätsannahme" heran? Die Rückrufhöhe in einer Population ist normalerweise nicht verteilt. Untersuche ich Residuen für beide Populationen separat ODER Residuen für das Modell (t-Test)?
Bitte beziehen Sie sich bei Antworten auf Fragen nach Nummer. Die Erfahrung hat gezeigt, dass sich Leute leicht verlaufen oder ablenken (besonders ich!). Denken Sie daran, ich bin kein Statistiker; obwohl ich einigermaßen konzeptuelles (dh kein technisches!) Verständnis der Statistik habe.
PS, ich habe die Archive durchsucht und die folgenden Themen gelesen, die mein Verständnis nicht gefestigt haben:
- ANOVA-Annahme Normalität / Normalverteilung von Residuen
- Normalität der Residuen gegenüber den Probendaten; Was ist mit T-Tests?
- Ist das Testen der Normalität im Wesentlichen nutzlos?
- Normalität testen
- Bewertung der Normalität der Verteilung
- Mit welchen Tests bestätige ich, dass die Residuen normal verteilt sind?
- Was tun, wenn der Kolmogorov-Smirnov-Test für Reste des parametrischen Tests von Bedeutung ist, aber Schiefe und Kurtosis normal aussehen?
Antworten:
Ein Punkt, der Ihr Verständnis verbessern kann:
Wenn normalverteilt ist und und Konstanten sind, dann ist ebenfalls normalverteilt (jedoch mit einem möglicherweise anderen Mittelwert und einer anderen Varianz).a b y = x - ax ein b y= x - ab
Da die Residuen nur die y-Werte minus dem geschätzten Mittelwert sind (standardisierte Residuen werden auch durch eine Schätzung des Standardfehlers dividiert), sind die Residuen auch und umgekehrt, wenn die y-Werte normal verteilt sind. Wenn wir also über Theorie oder Annahmen sprechen, spielt es keine Rolle, worüber wir sprechen, weil das eine das andere impliziert.
Für die Fragen führt dies also zu:
Ein weiterer wichtiger Punkt, der zu verstehen ist (der beim Lernen jedoch häufig in Konflikt gerät), ist, dass es hier zwei Arten von Residuen gibt: Die theoretischen Residuen, die die Unterschiede zwischen den beobachteten Werten und dem wahren theoretischen Modell darstellen, und die beobachteten Residuen, die die Unterschiede darstellen zwischen den beobachteten Werten und den Schätzungen des aktuell angepassten Modells. Wir gehen davon aus, dass die theoretischen Residuen normal sind. Die beobachteten Residuen sind nicht i, i oder normalverteilt (haben aber einen Mittelwert von 0). Aus praktischen Gründen schätzen die beobachteten Residuen jedoch die theoretischen Residuen und sind daher immer noch für die Diagnose nützlich.
quelle
Die kurzen Antworten:
Die längere Antwort:
Die Annahme ist, dass die abhängige Variable (y) normal verteilt ist, jedoch mit unterschiedlichen Mitteln für verschiedene Gruppen. Wenn Sie nur die Verteilung von y zeichnen, kann dies leicht zu einer Abweichung von Ihrer normalen glockenförmigen Kurve führen. Die Residuen repräsentieren die Verteilung von y mit diesen Unterschieden in den Mitteln "herausgefiltert".
Alternativ können Sie die Verteilung von y in jeder Gruppe separat betrachten. Dadurch werden auch die Mittelwertunterschiede zwischen den Gruppen herausgefiltert. Der Vorteil ist, dass Sie auf diese Weise auch Informationen über die Verteilung in jeder Gruppe erhalten, was in Ihrem Fall relevant erscheint. Der Nachteil ist, dass jede Gruppe weniger Beobachtungen enthält als der kombinierte Datensatz, den Sie erhalten würden, wenn Sie die Residuen betrachten. Außerdem können Sie Gruppen nicht sinnvoll vergleichen, wenn Sie viele Gruppen haben, z. B. weil Sie viele Prädiktorvariablen in Ihr Modell oder eine (quasi) kontinuierliche Prädiktorvariable in Ihr Modell eingegeben haben. Wenn Ihr Modell also nur aus einer kategorialen Prädiktorvariablen besteht und die Anzahl der Beobachtungen in jeder Gruppe groß genug ist, kann es sinnvoll sein, die Verteilung von y in jeder Gruppe separat zu untersuchen.
quelle
Frage 3)
Für die Verwendung von linearen Modellen, die Normalität erfordern, ist es wichtig, dass Residuen, die nicht normal sind, ob sie sich in einer Gruppe befinden oder nicht, ein wichtiger Indikator dafür sind, dass Ihr Modell möglicherweise nicht zu Ihren Daten passt.
Wenn Sie eine ANOVA durchführen, müssen Ihre allgemeinen Residuen natürlich nicht normal (oder eher homoskedastisch) sein, das würde keinen Sinn ergeben. In einer Regression ist es jedoch besser, ein Modell zu haben, bei dem die gesamten normalen Residuen vorliegen. Wenn nicht, sind Ihre Intervallschätzer und -tests falsch. Dies kann der Fall sein, wenn bestimmte Autokorrelationen vorliegen oder eine variable Verzerrung fehlt. Wenn das Modell zu 100% korrekt ist (einschließlich eventuell struktureller Brüche und Gewichtung, falls erforderlich), ist es nicht weit hergeholt, normale Fehlerausdrücke anzunehmen, auch wenn diese um 0 zentriert sind ist groß genug Es gibt keine endgültige Antwort, aber für einen zu 100% korrekten Ansatz mit Ja sollten alle Residuen normal sein.
Frage 4 & 5)
Es kommt darauf an, was Sie mit Vergleichen meinen. Unter der Annahme normaler Fehlerbedingungen können Sie anhand der Annahme von zwei verschiedenen Verteilungen testen. Sie können die GLS-Schätzung auch für eine Regression verwenden, um die verschiedenen Verteilungsparameter zu berücksichtigen - WENN Sie das richtige Modell haben ... und Ihre Gruppen selbst als Indikator / Binärvariable arbeiten?
Dann wäre es wahrscheinlich sehr schwer zu sagen, dass die Verteilung der Residuen normal sein wird - die Folge ist, dass Sie zwar etwas mit Ihren Daten anfangen können, dies jedoch nicht auf der Basis von regulären OLS geschieht.
Aber es kommt darauf an, was Sie mit den Daten machen wollen.
Ich denke, ein guter Ansatz wäre es, sich mit der Algebra des regulären OLS zu befassen und sich dabei auf die resultierenden Verteilungen zu konzentrieren.
quelle