Ich habe ein Problem mit der Normalität einiger meiner Daten: Ich habe einen Kolmogorov-Test durchgeführt, der besagt, dass es mit p = .0000 nicht normal ist. Ich verstehe nicht: Die Schiefe meiner Verteilung = -. 497 und die Kurtosis = -0.024
Hier ist die Handlung meiner Distribution, die sehr normal aussieht ...
(Ich habe drei Punkte, und jeder dieser Punkte ist nicht normal mit einem signifikanten p-Wert für den Kolmogorov-Test. Ich verstehe das wirklich nicht.)
Antworten:
Sie haben keine Basis, um zu behaupten, dass Ihre Daten normal sind. Selbst wenn Ihre Schiefe und Ihre überschüssige Kurtosis genau 0 waren, bedeutet dies nicht, dass Ihre Daten normal sind. Schiefe und Kurtosis, die weit von den erwarteten Werten entfernt sind, weisen auf eine Nichtnormalität hin, das Gegenteil ist jedoch nicht der Fall. Es gibt nicht normale Verteilungen, die die gleiche Schiefe und Kurtosis wie die normale haben. Ein Beispiel wird diskutiert hier wird die Dichte von denen im Folgenden wiedergegeben:
Wie Sie sehen, ist es eindeutig bimodal. In diesem Fall ist die Verteilung symmetrisch. Solange genügend Momente vorhanden sind, ist das typische Skewness-Maß 0 (in der Tat sind es alle üblichen Maße). Bei der Kurtosis führt der Beitrag zum vierten Moment aus der Region nahe dem Mittelwert dazu, dass die Kurtosis kleiner wird, aber der Schwanz ist relativ schwer, was dazu führt, dass er größer wird. Wenn Sie genau das Richtige wählen, wird die Kurtosis mit dem gleichen Wert wie beim Normalwert ausgegeben.
Die Schiefe Ihrer Stichprobe liegt tatsächlich bei -0,5, was auf eine leichte Schiefe der linken Seite hindeutet. Ihr Histogramm und Ihr QQ-Plot weisen beide auf dasselbe hin - eine leicht nach links gerichtete Verteilung. (Eine solche leichte Schiefe ist bei den meisten gängigen Verfahren der Normaltheorie wahrscheinlich kein Problem.)
Sie betrachten verschiedene Indikatoren für Nicht-Normalität, mit denen Sie nicht a priori einverstanden sein sollten , da sie unterschiedliche Aspekte der Verteilung berücksichtigen. Bei geringfügig nicht normalen Stichproben stimmen sie häufig nicht überein.
Nun zur großen Frage: * Warum testen Sie auf Normalität? *
[bearbeitet als Antwort von Kommentaren:]
Hier sind einige Punkte zu beachten.
ich. Normalität ist eine Annahme der ANOVA, wenn Sie sie für Inferenzzwecke verwenden (z. B. zum Testen von Hypothesen), aber sie ist nicht besonders empfindlich gegenüber Nichtnormalitäten in größeren Proben - leichte Nichtnormalitäten sind von geringer Bedeutung und können die Verteilung erhöhen, da die Probengrößen zunehmen werden nicht mehr normal und der Test kann nur wenig betroffen sein.
ii. Sie scheinen die Normalität der Antwort (die DV) zu testen. Die (bedingungslose) Verteilung von DV selbst wird in ANOVA nicht als normal angenommen. Sie überprüfen die Residuen, um die Angemessenheit der Annahme über die bedingte Verteilung zu beurteilen (dh den Fehlerterm im Modell, der als normal angenommen wird) - dh Sie scheinen nicht auf das Richtige zu achten. Da die Prüfung der Residuen durchgeführt wird, erfolgt dies nach der Modellanpassung und nicht zuvor.
iii. Formale Tests können so gut wie unbrauchbar sein. Die Frage des Interesses ist hier: "Wie stark wirkt sich der Grad der Nichtnormalität auf meine Schlussfolgerung aus?", Auf die der Hypothesentest wirklich nicht reagiert. Je größer die Stichprobe wird, desto mehr erkennt der Test geringfügige Abweichungen von der Normalität, während der Einfluss auf das Signifikanzniveau in der ANOVA immer geringer wird. Das heißt, wenn Ihre Stichprobe ausreichend groß ist, sagt Ihnen der Test der Normalität meistens, dass Sie eine große Stichprobe haben, was bedeutet, dass Sie sich nicht viel Sorgen machen müssen. Zumindest mit einem QQ-Plot haben Sie eine visuelle Einschätzung, wie nicht normal es ist.
iv. Bei angemessenen Stichprobengrößen spielen andere Annahmen - wie etwa die Gleichheit von Varianz und Unabhängigkeit - im Allgemeinen eine viel größere Rolle als eine leichte Nichtnormalität. Sorgen Sie sich zuerst um die anderen Annahmen ... aber auch hier ist das formale Testen nicht die richtige Antwort
v. Die Entscheidung, ob Sie eine ANOVA oder einen anderen Test basierend auf dem Ergebnis eines Hypothesentests durchführen, hat in der Regel schlechtere Eigenschaften als die bloße Entscheidung, so zu handeln, als ob die Annahme nicht zutrifft. (Es gibt eine Vielzahl von Methoden, die für ANOVA-ähnliche Einweganalysen von Daten geeignet sind, von denen nicht angenommen wird, dass sie normal sind, und die Sie verwenden können, wenn Sie nicht der Meinung sind, dass Sie Grund zur Annahme von Normalität haben. Einige haben eine sehr gute Leistung im Normalfall und mit anständiger Software gibt es keinen Grund, sie zu vermeiden.)
[Ich glaube, ich hatte eine Referenz für diesen letzten Punkt, aber ich kann sie jetzt nicht finden; Wenn ich es finde, werde ich versuchen, zurück zu kommen und es einzulegen.]
quelle
Der Kolmogorov-Smirnov-Test hat bei großen Stichproben eine gute Aussagekraft, sodass die Nullhypothese, dass Ihre Daten nicht von der Normalität abweichen, leicht zurückgewiesen werden kann. Mit anderen Worten, der Test legt manchmal nahe, dass eine Verteilung in großen Stichproben nicht normal ist, auch wenn dies für die meisten Absichten normal ist.
Stellen Sie es sich wie einen T-Test vor. Wenn Sie zwei Populationen haben, die sich in der Höhe nur um einen Tausendstel Millimeter unterscheiden, wird eine unglaublich große Stichprobe statistisch belegen, dass diese unterschiedlich sind, auch wenn der Unterschied bedeutungslos ist.
Vielleicht können Sie sich auf andere Methoden verlassen, um die Normalität Ihrer Daten zu bestimmen. Die Diagramme, die Sie verwenden, sind zwei gute Beispiele sowie die Skew / Kurtosis-Werte.
Dieses andere Thema scheint besonders verwandt zu sein: Ist das Testen der Normalität im Wesentlichen nutzlos?
quelle
Der Kolmogorov-Smirnov-Test ist ohne Verteilung, wenn die Nullhypothese vollständig spezifiziert ist. Wenn der Mittelwert und die Varianz aus den Daten geschätzt werden, verwenden Sie beim Testen der Normalität unbedingt die Lilliefors-Variante (falls erforderlich). Das ist nicht um die anderen Antworten zu bestreiten.
quelle