Ich möchte wissen, wie ein Datensatz in Excel auf Normalität überprüft wird, um zu überprüfen, ob die Anforderungen für die Verwendung eines T-Tests erfüllt sind .
Für das rechte Ende ist es angebracht, nur einen Mittelwert und eine Standardabweichung zu berechnen, 1, 2 und 3 Standardabweichungen vom Mittelwert zu addieren, um einen Bereich zu erstellen, und diesen nach der Verwendung mit dem Normalwert 68/95 / 99.7 für die Standardnormalverteilung zu vergleichen Die Funktion norm.dist in Excel testet jeden Standardabweichungswert.
Oder gibt es einen besseren Weg, um auf Normalität zu testen?
normal-distribution
excel
Eudora
quelle
quelle
Antworten:
Du hast die richtige Idee. Dies kann systematisch, umfassend und mit relativ einfachen Berechnungen erfolgen. Ein Diagramm der Ergebnisse wird als Normalwahrscheinlichkeitsdiagramm (oder manchmal als PP-Diagramm) bezeichnet. Daraus können Sie viel mehr Details ablesen als in anderen grafischen Darstellungen, insbesondere Histogrammen , und mit ein wenig Übung können Sie sogar lernen, wie Sie Ihre Daten in Situationen, in denen dies gerechtfertigt ist, wieder so ausdrücken können, dass sie sich dem Normalwert annähern.
Hier ist ein Beispiel:
Daten sind in Spalte
A
(und benanntData
). Der Rest ist die gesamte Berechnung, obwohl Sie den "Scharnierrang" -Wert steuern können, der zum Anpassen einer Referenzlinie an das Diagramm verwendet wird.Dieses Diagramm ist ein Streudiagramm, in dem die Daten mit Werten verglichen werden, die durch Zahlen erzielt würden, die unabhängig von einer Standardnormalverteilung gezogen wurden. Wenn die Punkte entlang der Diagonalen ausgerichtet sind, befinden sie sich in der Nähe von Normal. horizontale Abweichungen (entlang der Datenachse) zeigen Abweichungen von der Normalität an. In diesem Beispiel liegen die Punkte bemerkenswert nahe an der Referenzlinie. Die größte Abweichung tritt beim höchsten Wert auf, der etwa Einheiten links von der Linie liegt. So sehen wir auf einen Blick, dass diese Daten sehr nah an Normal verteilt sind, aber vielleicht einen leicht "hellen" rechten Schwanz haben. Dies ist vollkommen in Ordnung, um einen T-Test durchzuführen.1.5
Die Vergleichswerte auf der vertikalen Achse werden in zwei Schritten berechnet. Zunächst wird jeder Datenwert von bis , der Datenmenge (im Feld in der Zelle angezeigt ). Diese werden proportional in Werte im Bereich von bis . Eine gute Formel ist ( Woher das kommt, erfahren Sie unter http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm .) Anschließend werden diese über die Funktion in normale Standardwerte konvertiert . Diese Werte werden in der Spalte angezeigt. Das Diagramm auf der rechten Seite ist ein XY-Streudiagramm von1 n 0 1 ( rank - 1 / 6 ) / ( n + 2 / 3 ) .0 1 ( Rank - 1 / 6 ) / ( n + 2 / 3 ) .
Count
F2
NormSInv
Normal score
Normal Score
gegen die Daten. (In einigen Referenzen sehen Sie die Transponierung dieses Diagramms, was vielleicht natürlicher ist, aber Excel zieht es vor, die linke Spalte auf der horizontalen Achse und die rechte Spalte auf der vertikalen Achse zu platzieren, also habe ich es tun lassen, was es bevorzugt. )(Wie Sie sehen, habe ich diese Daten mit unabhängigen Zufallszügen aus einer Normalverteilung mit Mittelwert und Standardabweichung simuliert . Es ist daher nicht verwunderlich, dass das Wahrscheinlichkeitsdiagramm so gut aussieht.) Es gibt wirklich nur zwei Formeln, die Sie nach unten weitergeben, um sie an die Daten anzupassen: Sie werden in Zellen angezeigt und stützen sich auf den in Zelle berechneten Wert . Das ist wirklich alles, abgesehen von der Verschwörung.5 2
B2:C2
Count
F2
Der Rest dieses Blatts ist nicht erforderlich, aber hilfreich für die Beurteilung des Diagramms: Es bietet eine zuverlässige Schätzung einer Referenzlinie. Dazu werden zwei Punkte gleich weit links und rechts vom Plot ausgewählt und mit einer Linie verbunden. Im Beispiel sind diese Punkte die drittniedrigsten und dritthöchsten, wie durch die in der Zelle bestimmt . Als Bonus sind die Steigung und der Achsenabschnitt robuste Schätzungen der Standardabweichung bzw. des Mittelwerts der Daten.3
Hinge Rank
F3
Um die Referenzlinie zu zeichnen, werden zwei Extrempunkte berechnet und zum Diagramm hinzugefügt: Ihre Berechnung erfolgt in Spalten
I:J
mit der BezeichnungX
undY
.quelle
Sie können ein Histogramm mit dem Datenanalyse-Toolpack in Excel zeichnen . Bei grafischen Ansätzen ist es wahrscheinlicher, dass sie den Grad der Nichtnormalität angeben, der für Annahmetests in der Regel relevanter ist (siehe diese Diskussion über Normalität ).
Das Datenanalyse-Toolpack in Excel gibt Ihnen auch Schiefe und Kurtosis, wenn Sie nach beschreibenden Statistiken fragen und die Option " Auswertungsstatistik " auswählen. Sie können beispielsweise Werte für die Schiefe über plus oder minus eins als eine Form der inhaltlichen Nichtnormalität betrachten.
Allerdings wird bei t-Tests davon ausgegangen, dass die Residuen normalverteilt sind und nicht die Variable. Darüber hinaus sind sie auch ziemlich robust, so dass selbst bei relativ großen Mengen an Nichtnormalität die p-Werte noch ziemlich gültig sind.
quelle
Diese Frage grenzt auch an die statistische Theorie - das Testen auf Normalität mit begrenzten Daten ist möglicherweise fragwürdig (obwohl wir dies alle von Zeit zu Zeit getan haben).
Alternativ können Sie sich die Kurtosis- und Skewness-Koeffizienten ansehen. Von Hahn und Shapiro: Statistische Modelle im Ingenieurwesen Hintergrundinformationen zu den Eigenschaften Beta1 und Beta2 (Seiten 42 bis 49) sowie zu Abb. 6-1 von Seite 197. Eine zusätzliche Theorie dazu finden Sie auf Wikipedia (siehe Pearson Distribution).
Grundsätzlich müssen Sie die sogenannten Eigenschaften Beta1 und Beta2 berechnen. Ein Beta1 = 0 und Beta2 = 3 deuten darauf hin, dass sich der Datensatz der Normalität nähert. Dies ist ein grober Test, aber mit begrenzten Daten könnte argumentiert werden, dass jeder Test als ein grober angesehen werden könnte.
Beta1 bezieht sich auf die Momente 2 und 3 bzw. Varianz und Schiefe . In Excel sind dies VAR und SKEW. Wo ... ist Ihr Datenarray, lautet die Formel:
Beta2 bezieht sich auf die Momente 2 und 4 bzw. die Varianz und Kurtosis . In Excel sind dies VAR und KURT. Wo ... ist Ihr Datenarray, lautet die Formel:
Dann können Sie diese mit den Werten 0 bzw. 3 vergleichen. Dies hat den Vorteil, dass möglicherweise andere Verteilungen identifiziert werden (einschließlich der Pearson-Verteilungen I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Beispielsweise können viele der häufig verwendeten Verteilungen wie Uniform, Normal, Student's t, Beta, Gamma, Exponential und Log-Normal anhand dieser Eigenschaften angegeben werden:
Diese sind in Hahn und Shapiro Abb. 6-1 dargestellt.
Zugegeben, dies ist ein sehr grober Test (mit einigen Problemen), aber Sie können ihn als vorläufige Prüfung betrachten, bevor Sie zu einer strengeren Methode übergehen.
Es gibt auch Anpassungsmechanismen für die Berechnung von Beta1 und Beta2, bei denen die Daten begrenzt sind - aber das geht über diesen Beitrag hinaus.
quelle