Ich habe dies aufgezeichnet, nachdem ich einen Shapiro-Wilk-Normalitätstest durchgeführt habe. Der Test hat gezeigt, dass es wahrscheinlich ist, dass die Bevölkerung normal verteilt ist. Wie kann man dieses "Verhalten" auf dieser Handlung sehen?
AKTUALISIEREN
Ein einfaches Histogramm der Daten:
AKTUALISIEREN
Der Shapiro-Wilk-Test sagt:
Antworten:
Nein; das hat es nicht gezeigt.
Hypothesentests sagen Ihnen nicht, wie wahrscheinlich die Null ist. Tatsächlich können Sie wetten, dass diese Null falsch ist.
Der QQ-Plot gibt keinen starken Hinweis auf Nicht-Normalität (der Plot ist ziemlich gerade); Es gibt vielleicht einen etwas kürzeren linken Schwanz, als man erwarten würde, aber das ist wirklich unwichtig.
Das Histogramm sagt wahrscheinlich auch nicht viel aus; es deutet auch auf einen etwas kürzeren linken Schwanz hin. Aber siehe hier
Die Bevölkerungsverteilung, aus der Ihre Daten stammen, wird nicht ganz normal sein. Das QQ-Diagramm zeigt jedoch, dass die Normalität wahrscheinlich eine einigermaßen gute Annäherung ist.
Wenn die Stichprobengröße nicht zu klein wäre, würde eine fehlende Ablehnung des Shapiro-Wilk wahrscheinlich fast dasselbe aussagen.
Update: Ihre Änderung, um den tatsächlichen Shapiro-Wilk-p-Wert einzuschließen, ist wichtig, da dies darauf hinweist, dass Sie die Null bei typischen signifikanten Werten ablehnen würden. Dieser Test zeigt an, dass Ihre Daten nicht normal verteilt sind, und die in den Diagrammen angegebene leichte Schiefe ist wahrscheinlich das, was vom Test erfasst wird. Bei typischen Verfahren, bei denen die Normalität der Variablen selbst angenommen wird (der T-Test mit einer Stichprobe ist einer, der in den Sinn kommt), hat diese leichte Nicht-Normalität bei einer scheinbar relativ großen Stichprobe fast keine Konsequenz Alles - eines der Probleme bei der Prüfung der Anpassungsgüte ist, dass sie eher abgelehnt werden, wenn es keine Rolle spielt (wenn die Stichprobengröße groß genug ist, um eine bescheidene Nicht-Normalität zu erkennen). In ähnlicher Weise werden sie eher nicht zurückweisen, wenn es darauf ankommt (wenn die Stichprobengröße klein ist).
quelle
Wenn die Daten normal verteilt sind, liegen die Punkte im QQ-Normalplot auf einer geraden diagonalen Linie. Sie können diese Linie mit dem Befehl zu Ihrem QQ-Plot hinzufügen.
qqline(x)
Dabeix
handelt es sich um den Vektor der Werte.Beispiele für Normal- und Nicht-Normalverteilung:
Normalverteilung
Der QQ-Normalplot mit der Linie:
Die Abweichungen von der Geraden sind minimal. Dies zeigt eine normale Verteilung an.
Das Histogramm:
Nicht normale (Gamma) Verteilung
Die QQ-normale Handlung:
Die Punkte folgen eindeutig einer anderen Form als der geraden Linie.
Das Histogramm bestätigt die Nichtnormalität. Die Verteilung ist nicht glockenförmig, sondern positiv verzerrt (dh die meisten Datenpunkte liegen in der unteren Hälfte). Histogramme von Normalverteilungen zeigen die höchste Häufigkeit in der Mitte der Verteilung.
quelle
qqPlot
Funktion imcar
Paket.Einige Werkzeuge zur Überprüfung der Gültigkeit der Normalitätsannahme in R
quelle
Es ist zwar eine gute Idee, visuell zu prüfen, ob Ihre Intuition mit dem Ergebnis eines Tests übereinstimmt, aber Sie können nicht erwarten, dass dies jedes Mal einfach ist. Wenn die Leute, die versuchen, das Higgs-Boson zu entdecken, ihren Ergebnissen nur vertrauen würden, wenn sie sie visuell beurteilen könnten, würden sie ein sehr scharfes Auge benötigen.
Insbesondere bei großen Datenmengen (und damit in der Regel mit zunehmender Leistung) werden in der Statistik kleinste Unterschiede festgestellt, auch wenn sie mit bloßem Auge kaum erkennbar sind.
Davon abgesehen: Normalerweise sollte Ihr QQ-Plot eine gerade Linie zeigen: Ich würde sagen, dass dies nicht der Fall ist. Es gibt deutliche Biegungen in den Schwänzen und sogar in der Mitte ist etwas Aufregung. Optisch könnte ich dennoch sagen (abhängig vom Ziel der Überprüfung der Normalität), dass diese Daten "vernünftig" normal sind.
Beachten Sie jedoch: Für die meisten Zwecke, bei denen Sie die Normalität überprüfen möchten, benötigen Sie nur die Normalität der Mittelwerte anstelle der Normalität der Beobachtungen, sodass der zentrale Grenzwertsatz möglicherweise ausreicht, um Sie zu retten. Außerdem: Während Normalität oft die Annahme ist, dass Sie "offiziell" prüfen müssen, hat sich gezeigt, dass viele Tests ziemlich unempfindlich sind, wenn diese Annahme nicht erfüllt wird.
quelle
Ich mag die Version aus der "R" -Bibliothek "Auto", weil sie nicht nur die zentrale Tendenz, sondern auch die Konfidenzintervalle liefert. Es gibt visuelle Anleitungen, um zu bestätigen, ob das Verhalten der Daten mit der hypothetischen Verteilung übereinstimmt.
einige links:
quelle