Kontext:
In einer früheren Frage fragte @Robbie in einer Studie mit etwa 600 Fällen, warum Normalitätstests auf eine signifikante Nichtnormalität hinwiesen, die Diagramme jedoch auf Normalverteilungen hinwiesen . Mehrere Personen wiesen darauf hin, dass Signifikanztests der Normalität nicht sehr nützlich sind. Bei kleinen Stichproben haben solche Tests nicht viel Leistung, um leichte Verstöße gegen die Normalität zu erkennen, und bei großen Stichproben erkennen sie Verstöße gegen die Normalität, die klein genug sind, um nicht von Belang zu sein.
Es scheint mir, dass dieses Problem der Debatte um Signifikanztests und Effektgrößen ähnelt. Wenn Sie sich nur auf Signifikanztests konzentrieren und große Stichproben haben, können Sie kleine Effekte erkennen, die für praktische Zwecke irrelevant sind, und bei kleinen Stichproben verfügen Sie nicht über ausreichende Leistung.
In einigen Fällen habe ich sogar Lehrbücher gesehen, die Leuten raten, dass Sie eine "zu große" Stichprobe haben können, da kleine Effekte statistisch signifikant sind.
Im Zusammenhang mit Signifikanztests und Effektgrößen besteht eine einfache Lösung darin, sich auf die Schätzung der Größe des interessierenden Effekts zu konzentrieren, anstatt von der binären Entscheidungsregel besessen zu sein, ob ein Effekt vorliegt oder nicht. Konfidenzintervalle für Effektgrößen sind ein solcher Ansatz, oder Sie könnten eine Form des Bayes'schen Ansatzes anwenden. Darüber hinaus bilden verschiedene Forschungsbereiche Ideen darüber, was eine bestimmte Effektgröße im praktischen Sinne zum Guten oder Schlechten bedeutet, indem heuristische Bezeichnungen wie "kleiner", "mittlerer" und "großer Effekt" angewendet werden. Dies führt auch zu der intelligenten Empfehlung, die Stichprobengröße zu maximieren, um die Genauigkeit bei der Schätzung eines bestimmten interessierenden Parameters zu maximieren.
Ich frage mich daher, warum ein ähnlicher Ansatz, der auf Konfidenzintervallen von Effektgrößen basiert, in Bezug auf Annahmetests und insbesondere Normalitätstests nicht weiter verbreitet ist.
Frage:
- Was ist der beste Einzelindex für das Ausmaß, in dem die Daten die Normalität verletzen?
- Oder ist es einfach besser, über mehrere Indizes für Normalitätsverletzungen zu sprechen (z. B. Schiefe, Kurtosis, Ausreißerprävalenz)?
- Wie können Konfidenzintervalle (oder vielleicht ein Bayes'scher Ansatz) für den Index berechnet werden?
- Welche Art von verbalen Bezeichnungen könnten Sie Punkten in diesem Index zuweisen, um den Grad der Verletzung der Normalität anzuzeigen (z. B. mild, mittel, stark, extrem usw.)? Das Ziel solcher Labels könnte darin bestehen, Analysten mit weniger Erfahrung in der Schulung ihrer Intuition zu helfen, wenn Verstöße gegen die Normalität problematisch sind.
Antworten:
A) Was ist der beste Einzelindex für das Ausmaß, in dem die Daten die Normalität verletzen?
B) Oder ist es einfach besser, über mehrere Indizes für Normalitätsverletzungen zu sprechen (z. B. Schiefe, Kurtosis, Ausreißerprävalenz)?
Ich würde für B stimmen. Unterschiedliche Verstöße haben unterschiedliche Konsequenzen. Zum Beispiel machen unimodale, symmetrische Verteilungen mit schweren Schwänzen Ihre CIs sehr breit und verringern vermutlich die Fähigkeit, Effekte zu erkennen. Der Mittelwert trifft jedoch immer noch den "typischen" Wert. Bei sehr verzerrten Verteilungen ist der Mittelwert beispielsweise möglicherweise kein sehr vernünftiger Index für den "typischen Wert".
C) Wie können Konfidenzintervalle (oder vielleicht ein Bayes'scher Ansatz) für den Index berechnet werden?
Ich weiß nichts über Bayes'sche Statistik, aber in Bezug auf den klassischen Normalitätstest möchte ich Erceg-Hurn et al. (2008) [2]:
D) Welche Art von verbalen Bezeichnungen könnten Sie Punkten in diesem Index zuweisen, um den Grad der Verletzung der Normalität anzuzeigen (z. B. mild, mittel, stark, extrem usw.)?
Micceri (1989) [1] analysierte 440 große Datensätze in der Psychologie. Er bewertete die Symmetrie und das Schwanzgewicht und definierte Kriterien und Bezeichnungen. Die Bezeichnungen für Asymmetrie reichen von "relativ symmetrisch" bis "mittel -> extrem -> exponentielle Asymmetrie". Die Etiketten für das Schwanzgewicht reichen von "Uniform -> weniger als Gauß -> Über Gauß -> Mittel -> Extrem -> Doppelte exponentielle Kontamination". Jede Klassifizierung basiert auf mehreren robusten Kriterien.
Er fand heraus, dass von diesen 440 Datensätzen nur 28% relativ symmetrisch waren und nur 15% in Bezug auf die Schwanzgewichte etwa Gaußsch waren. Daher der schöne Titel des Papiers:
Ich habe eine
R
Funktion geschrieben, die automatisch die Kriterien von Micceri bewertet und auch die Etiketten ausdruckt:[1] Micceri, T. (1989). Das Einhorn, die normale Kurve und andere unwahrscheinliche Kreaturen. Psychological Bulletin, 105 , 156 & ndash; 166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM & Mirosevich, VM (2008). Moderne robuste statistische Methoden: Eine einfache Möglichkeit, die Genauigkeit und Leistungsfähigkeit Ihrer Forschung zu maximieren. American Psychologist, 63 , 591 & ndash; 601.
quelle