Wie überprüfe ich die Normalverteilung mit Excel, um einen T-Test durchzuführen?

21

Ich möchte wissen, wie ein Datensatz in Excel auf Normalität überprüft wird, um zu überprüfen, ob die Anforderungen für die Verwendung eines T-Tests erfüllt sind .

Für das rechte Ende ist es angebracht, nur einen Mittelwert und eine Standardabweichung zu berechnen, 1, 2 und 3 Standardabweichungen vom Mittelwert zu addieren, um einen Bereich zu erstellen, und diesen nach der Verwendung mit dem Normalwert 68/95 / 99.7 für die Standardnormalverteilung zu vergleichen Die Funktion norm.dist in Excel testet jeden Standardabweichungswert.

Oder gibt es einen besseren Weg, um auf Normalität zu testen?

Eudora
quelle

Antworten:

15

Du hast die richtige Idee. Dies kann systematisch, umfassend und mit relativ einfachen Berechnungen erfolgen. Ein Diagramm der Ergebnisse wird als Normalwahrscheinlichkeitsdiagramm (oder manchmal als PP-Diagramm) bezeichnet. Daraus können Sie viel mehr Details ablesen als in anderen grafischen Darstellungen, insbesondere Histogrammen , und mit ein wenig Übung können Sie sogar lernen, wie Sie Ihre Daten in Situationen, in denen dies gerechtfertigt ist, wieder so ausdrücken können, dass sie sich dem Normalwert annähern.

Hier ist ein Beispiel:

Tabellenkalkulation mit Wahrscheinlichkeitsdiagramm

Daten sind in Spalte A(und benannt Data). Der Rest ist die gesamte Berechnung, obwohl Sie den "Scharnierrang" -Wert steuern können, der zum Anpassen einer Referenzlinie an das Diagramm verwendet wird.

Dieses Diagramm ist ein Streudiagramm, in dem die Daten mit Werten verglichen werden, die durch Zahlen erzielt würden, die unabhängig von einer Standardnormalverteilung gezogen wurden. Wenn die Punkte entlang der Diagonalen ausgerichtet sind, befinden sie sich in der Nähe von Normal. horizontale Abweichungen (entlang der Datenachse) zeigen Abweichungen von der Normalität an. In diesem Beispiel liegen die Punkte bemerkenswert nahe an der Referenzlinie. Die größte Abweichung tritt beim höchsten Wert auf, der etwa Einheiten links von der Linie liegt. So sehen wir auf einen Blick, dass diese Daten sehr nah an Normal verteilt sind, aber vielleicht einen leicht "hellen" rechten Schwanz haben. Dies ist vollkommen in Ordnung, um einen T-Test durchzuführen.1.5

Die Vergleichswerte auf der vertikalen Achse werden in zwei Schritten berechnet. Zunächst wird jeder Datenwert von bis , der Datenmenge (im Feld in der Zelle angezeigt ). Diese werden proportional in Werte im Bereich von bis . Eine gute Formel ist ( Woher das kommt, erfahren Sie unter http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm .) Anschließend werden diese über die Funktion in normale Standardwerte konvertiert . Diese Werte werden in der Spalte angezeigt. Das Diagramm auf der rechten Seite ist ein XY-Streudiagramm von1n0 1 ( rank - 1 / 6 ) / ( n + 2 / 3 ) .CountF201(Rang-1/6)/(n+2/3).NormSInvNormal scoreNormal Scoregegen die Daten. (In einigen Referenzen sehen Sie die Transponierung dieses Diagramms, was vielleicht natürlicher ist, aber Excel zieht es vor, die linke Spalte auf der horizontalen Achse und die rechte Spalte auf der vertikalen Achse zu platzieren, also habe ich es tun lassen, was es bevorzugt. )

Tabellenkalkulation: Berechnung der normalen Punktzahl

(Wie Sie sehen, habe ich diese Daten mit unabhängigen Zufallszügen aus einer Normalverteilung mit Mittelwert und Standardabweichung simuliert . Es ist daher nicht verwunderlich, dass das Wahrscheinlichkeitsdiagramm so gut aussieht.) Es gibt wirklich nur zwei Formeln, die Sie nach unten weitergeben, um sie an die Daten anzupassen: Sie werden in Zellen angezeigt und stützen sich auf den in Zelle berechneten Wert . Das ist wirklich alles, abgesehen von der Verschwörung.52B2:C2CountF2

Der Rest dieses Blatts ist nicht erforderlich, aber hilfreich für die Beurteilung des Diagramms: Es bietet eine zuverlässige Schätzung einer Referenzlinie. Dazu werden zwei Punkte gleich weit links und rechts vom Plot ausgewählt und mit einer Linie verbunden. Im Beispiel sind diese Punkte die drittniedrigsten und dritthöchsten, wie durch die in der Zelle bestimmt . Als Bonus sind die Steigung und der Achsenabschnitt robuste Schätzungen der Standardabweichung bzw. des Mittelwerts der Daten.3Hinge RankF3

Um die Referenzlinie zu zeichnen, werden zwei Extrempunkte berechnet und zum Diagramm hinzugefügt: Ihre Berechnung erfolgt in Spalten I:Jmit der Bezeichnung Xund Y.

Kalkulationstabelle: Referenzlinienberechnung

whuber
quelle
Erklären Sie für die Formeln in Spalte B den Grund für die Addition von 1 und die Division durch 6 und 3 („+ 1/6“ und „+ 1/3“). Gibt es auch einen Grund, warum Sie sich entschieden haben, in der Hinge Rank-Zelle durch 6 zu teilen?
@ Michael Gute Fragen. ist eine einfache und bekannte Methode, um Wahrscheinlichkeitspunkte zu bestimmen. Ich erinnere mich, dass John Tukey dies in seinem Buch EDA empfohlen hat . Das Scharnier Rangformel ist geheimnisvoll: Ich hätte erklärt , dass ich zwei Punkte bin Kommissionierung gleich weit in die von den Enden an den und Perzentile. Jeder Multiplikator, der wesentlich größer als und kleiner als würde funktionieren. ist beliebt: es entspricht den Quartilen. So ist , was 1 SD für eine Normalverteilung entspricht. 100 × 1 / 6 100 × 5 / 6 0 1 / 2 1 / 4 0,161/6100×1/6100×5/601/21/40,16
whuber
Die Formel (Rang + 1/6) / (n + 1/3) scheint nicht wie erwartet symmetrisch zu sein. zB bei der mittleren Beobachtung von 3 ist der Rang 2 und dies würde ein entsprechendes Perzentil von 0,65 andeuten, anstatt das, was für die mittlere Beobachtung als selbstverständlich erscheint (0,5). Habe ich etwas Offensichtliches verpasst? [Ich habe gesehen, dass Tukey an verschiedenen Stellen verschiedene Formeln verwendet, einschließlich (i-1/3) / (n + 1/3). Die Formel an Ihrem Link passt in das allgemeine Schema (ia) / (n + 1-2a), aber die Formel, die Sie in Ihrer Antwort
angeben,
@ Glen_b Danke, dass du das verstanden hast. Ich hatte die Formel falsch zitiert. Meine Quelle ist (meine eigene Seite!) Unter quantdec.com/envstats/notes/class_02/… , wo die korrekte Formel angegeben und begründet ist: Im Allgemeinen wird wobei ist rank (von bis ) und typischerweise eine Zahl zwischen und , oft . Das ergibt als die gewünschte Formel. ( 1/3 gibt die von Ihnen angegebene Tukey-Formel an.) Ich habe die Formel und die Excel-Darstellung korrigiert. R1na011/6(R-1/6)/(n+2/3)a=1/3
r-einn+1-2ein
r1nein011/6(r-1/6)/(n+2/3)ein=1/3
whuber
5

Sie können ein Histogramm mit dem Datenanalyse-Toolpack in Excel zeichnen . Bei grafischen Ansätzen ist es wahrscheinlicher, dass sie den Grad der Nichtnormalität angeben, der für Annahmetests in der Regel relevanter ist (siehe diese Diskussion über Normalität ).

Das Datenanalyse-Toolpack in Excel gibt Ihnen auch Schiefe und Kurtosis, wenn Sie nach beschreibenden Statistiken fragen und die Option " Auswertungsstatistik " auswählen. Sie können beispielsweise Werte für die Schiefe über plus oder minus eins als eine Form der inhaltlichen Nichtnormalität betrachten.

Allerdings wird bei t-Tests davon ausgegangen, dass die Residuen normalverteilt sind und nicht die Variable. Darüber hinaus sind sie auch ziemlich robust, so dass selbst bei relativ großen Mengen an Nichtnormalität die p-Werte noch ziemlich gültig sind.

Jeromy Anglim
quelle
4

Diese Frage grenzt auch an die statistische Theorie - das Testen auf Normalität mit begrenzten Daten ist möglicherweise fragwürdig (obwohl wir dies alle von Zeit zu Zeit getan haben).

Alternativ können Sie sich die Kurtosis- und Skewness-Koeffizienten ansehen. Von Hahn und Shapiro: Statistische Modelle im Ingenieurwesen Hintergrundinformationen zu den Eigenschaften Beta1 und Beta2 (Seiten 42 bis 49) sowie zu Abb. 6-1 von Seite 197. Eine zusätzliche Theorie dazu finden Sie auf Wikipedia (siehe Pearson Distribution).

Grundsätzlich müssen Sie die sogenannten Eigenschaften Beta1 und Beta2 berechnen. Ein Beta1 = 0 und Beta2 = 3 deuten darauf hin, dass sich der Datensatz der Normalität nähert. Dies ist ein grober Test, aber mit begrenzten Daten könnte argumentiert werden, dass jeder Test als ein grober angesehen werden könnte.

Beta1 bezieht sich auf die Momente 2 und 3 bzw. Varianz und Schiefe . In Excel sind dies VAR und SKEW. Wo ... ist Ihr Datenarray, lautet die Formel:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 bezieht sich auf die Momente 2 und 4 bzw. die Varianz und Kurtosis . In Excel sind dies VAR und KURT. Wo ... ist Ihr Datenarray, lautet die Formel:

Beta2 = KURT(...)/VAR(...)^2

Dann können Sie diese mit den Werten 0 bzw. 3 vergleichen. Dies hat den Vorteil, dass möglicherweise andere Verteilungen identifiziert werden (einschließlich der Pearson-Verteilungen I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Beispielsweise können viele der häufig verwendeten Verteilungen wie Uniform, Normal, Student's t, Beta, Gamma, Exponential und Log-Normal anhand dieser Eigenschaften angegeben werden:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Diese sind in Hahn und Shapiro Abb. 6-1 dargestellt.

Zugegeben, dies ist ein sehr grober Test (mit einigen Problemen), aber Sie können ihn als vorläufige Prüfung betrachten, bevor Sie zu einer strengeren Methode übergehen.

Es gibt auch Anpassungsmechanismen für die Berechnung von Beta1 und Beta2, bei denen die Daten begrenzt sind - aber das geht über diesen Beitrag hinaus.

AsymLabs
quelle
Ein Großteil dieses Materials kann für große Datensätze gut funktionieren, und ich stimme Ihrer anfänglichen Einschätzung zu, dass Normalitätstests bei kleinen Datensätzen eingeschränkt oder fragwürdig sein können. Angesichts der enormen Variabilität von Schiefe und Kurtosis scheint es jedoch noch fragwürdiger und weniger sicher zu sein, welche Art der zugrunde liegenden Verteilung auf diesen Statistiken beruht. Wäre dieser Ansatz nicht (bestenfalls) als vorläufige Prüfung irreführend?
Whuber
1
Vielleicht ist es am besten, die Methode weiter zu qualifizieren: Hahn und Shapiro (wie oben erwähnt) raten dazu, Vorsicht walten zu lassen, insbesondere wenn die Stichprobengröße unter 200 liegt - und empfehlen eine weitere Überprüfung, wie eine Häufigkeitstabelle das vergleicht die angepasste Verteilung mit den tatsächlichen Daten. Meines Erachtens ist es jedoch eine nützliche Methode, die Aufschluss darüber geben kann, wo die Daten in einem Spektrum von Möglichkeiten liegen könnten. Ich habe es für Datensätze verwendet, die nicht kleiner als 3000 sind, und es in Computersimulationssoftware eingebaut, wo es sich als nützlich erwiesen hat.
AsymLabs
Ich kann sehen, wie Ihre Methode nützliche Informationen mit Datensätzen von 3000 oder mehr liefert. Dann ist es jedoch nicht erforderlich, Verteilungstests durchzuführen, um die Anwendbarkeit eines t-Tests des Mittelwerts zu beurteilen.
whuber
Unabhängig davon, ob man dies als eine nützliche Technik betrachtet, wie ich es tue, oder auf andere Weise, wie es Ihrer Ansicht nach erscheint, ist es dennoch eine schnelle und seit langem etablierte (von Pearson) Alternative zum Testen auf Normalität (und Student-t-Anwendung) in der Kontext dieses Threads. Verstehen Sie mich bitte nicht falsch, ich erkenne Ihre Bedenken an und stimme ihnen zu. Wir sind uns aber einig, dass der Versuch, ohne vorherige Informationen festzustellen, ob eine gesamte Population anhand einer sehr kleinen Datenstichprobe nach dem Gaußschen Muster modelliert werden kann, mit jeder Methode bestenfalls ein Schuss ins Dunkle ist und schlimmstenfalls ist gefährlich.
AsymLabs
1
Korrekt. Ich sage nur, wenn es gefährlich ist, anhand einer kleinen Stichprobe zu testen, ob es sich um eine Gauß-Population handelt, muss es mindestens genauso gefährlich sein, die Schiefe und die Kurtosis zu verwenden, um die zugrunde liegende Verteilung zu bestimmen! In der Tat scheint es, als wäre ein solcher Versuch tatsächlich schlimmer, da er auf instabilen Statistiken wie der Kurtosis beruht. Das Pearson-System kann zwar als leistungsstarker Leitfaden für die Identifizierung möglicher Verteilungen dienen, bietet jedoch weniger Einblicke als selbst begrenzte grafische Anzeigen wie Histogramme.
whuber