In R habe ich eine Stichprobe von 348 Kennzahlen und möchte wissen, ob ich davon ausgehen kann, dass sie für zukünftige Tests normalverteilt sind.
Nach einer weiteren Stack-Antwort betrachte ich im Wesentlichen die Dichtekurve und die QQ-Kurve mit:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Ich habe keine große Erfahrung mit Statistik, aber sie sehen aus wie Beispiele für Normalverteilungen, die ich gesehen habe.
Dann führe ich den Shapiro-Wilk-Test durch:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Wenn ich es richtig interpretiere, sagt es mir, dass es sicher ist, die Nullhypothese abzulehnen, die besagt, dass die Verteilung normal ist.
Ich bin jedoch auf zwei Stapelpfosten gestoßen ( hier und hier ), die die Nützlichkeit dieses Tests stark untergraben. Wenn die Stichprobe groß ist (gilt 348 als groß?), Wird immer gesagt, dass die Verteilung nicht normal ist.
Wie soll ich das alles interpretieren? Sollte ich mich an den QQ-Plot halten und davon ausgehen, dass meine Verteilung normal ist?
quelle
Antworten:
Sie haben hier kein Problem. Ihre Daten meine sein etwas nicht normal, aber es ist normal genug , dass es keine Probleme mit sich bringen sollte. Viele Forscher führen statistische Tests unter der Annahme einer Normalität durch, die weitaus weniger normale Daten enthält als die von Ihnen.
Ich würde deinen Augen vertrauen. Die Dichte- und QQ-Diagramme sehen trotz einiger leichter positiver Schrägstellungen an den Schwänzen angemessen aus. Meiner Meinung nach brauchen Sie sich keine Sorgen über die Nichtnormalität dieser Daten zu machen.
Sie haben ein N von ungefähr 350, und die p-Werte hängen stark von den Stichprobengrößen ab. Bei einer großen Stichprobe kann fast alles von Bedeutung sein. Dies wurde hier diskutiert.
Es gibt einige unglaubliche Antworten auf diesen sehr beliebten Beitrag, die im Grunde genommen zu dem Schluss kommen, dass die Durchführung eines Nullhypothesen-Signifikanztests für Nicht-Normalität "im Wesentlichen nutzlos" ist. Die akzeptierte Antwort auf diesen Beitrag ist eine fabelhafte Demonstration, dass selbst wenn Daten aus einem beinahe Gaußschen Prozess generiert wurden , eine ausreichend große Stichprobengröße den nicht normalen Test signifikant macht.
Entschuldigung, mir ist aufgefallen, dass ich auf einen Beitrag verlinkt habe, den Sie in Ihrer ursprünglichen Frage erwähnt hatten. Mein Fazit bleibt jedoch bestehen: Ihre Daten sind nicht so unüblich, dass es Probleme geben sollte.
quelle
Ihre Verteilung ist nicht normal. Schau dir die Schwänze an (oder das Fehlen davon). Im Folgenden sehen Sie, was Sie von einem normalen QQ-Diagramm erwarten würden.
In diesem Beitrag erfahren Sie, wie Sie verschiedene QQ-Diagramme interpretieren.
Denken Sie daran, dass eine Distribution zwar technisch nicht normal ist, aber normal genug, um sich für Algorithmen zu qualifizieren, die Normalität erfordern.
quelle