Bewertung von „Ungefähr normal“ für t-Tests

12

Ich teste die Mittelgleichheit mit dem Welch-T-Test. Die zugrunde liegende Verteilung ist alles andere als normal (stärker verzerrt als das Beispiel in einer verwandten Diskussion hier ). Ich kann mehr Daten abrufen, möchte aber eine grundsätzliche Methode, um zu bestimmen, inwieweit dies getan werden soll.

  1. Gibt es eine gute Heuristik für die Beurteilung, dass die Stichprobenverteilung akzeptabel ist? Welche Abweichungen von der Normalität sind am stärksten betroffen?
  2. Gibt es andere Ansätze - z. B. die Verwendung eines Bootstrap-Konfidenzintervalls für die Stichprobenstatistik - die sinnvoller wären?
cohoz
quelle
2
Das ist eine gute Frage. Abgesehen davon, ist Normalitätstest "im Wesentlichen nutzlos"? (bereits verknüpft), zwei weitere verwandte Fragen lauten: Wie kann man in kleinen Stichproben zwischen einem t-Test oder einem nicht-parametrischen Test wählen, z. B. Wilcoxon? und T-Test für nicht normal, wenn N> 50? Eine gute Antwort auf diese Frage wäre möglicherweise für die Leser dieser beiden verwandten Fragen wertvoll.
Silverfish
Soweit ich weiß, gibt es keine grundsätzlichen Methoden, um zu bestimmen, wie viele Daten für die Verteilung "normal genug" sind. Dies liegt daran, dass "normal genug" schwer zu definieren ist und davon abhängt, wie nicht normal die zugrunde liegende Verteilung ist, zusätzlich zu der besonderen Art und Weise, in der Sie von der Normalität abweichen. Wenn Sie ernsthaft nicht normale Daten haben, würde ich stattdessen nur einen nicht parametrischen Test verwenden. Der Nachteil ist, dass Sie keine Konfidenzintervalle erhalten, die nützlicher sind als einzelne Hypothesentests.
Dsaxton
2
Ich stimme zu, dass "normal genug" schwer zu definieren ist, aber jeder Praktiker muss die Bewertung vornehmen, bevor er über empirische Daten nachdenkt. Deshalb wundert es mich, wie wenig Diskussion ich bisher aufdecken konnte (vielleicht schaue ich an den falschen Stellen). . Für die Anwendungsfälle, an die ich hier denke (die sich häufig genug anfühlen), sind nicht-parametrische Tests unbefriedigend, verglichen mit dem Sammeln von mehr Daten, um eine "normal genug" Stichprobenverteilung sicherzustellen.
Cohoz

Antworten:

1

Da der t- Test von Normalität ausgeht und Ihre zugrunde liegenden Verteilungen nicht normal sind, kann nicht prinzipiell festgestellt werden, ob die Stichprobenverteilung akzeptabel ist. Wenn die Stichprobengröße jedoch "groß" wird, setzt der zentrale Grenzwertsatz ein und Sie können einen großen Stichproben-Z-Test verwenden, der im Wesentlichen die gleiche Antwort liefert wie ein t -Test, da sich das t der Normalverteilung mit nähert große Proben.

Statistikbücher / Kurse implizieren oft, dass bei einer Stichprobengröße von 25 oder 30 CLT auf nützliche Weise ins Spiel kommt. Ich habe jedoch die Erfahrung gemacht, dass selbst mit Stichprobengrößen in den Hunderten von großen Stichproben-Z-Tests immer noch ziemlich schlechte Ergebnisse erzielt werden können (z. B. mit Zähldaten).

Meiner Meinung nach passt ein Permutationstest gut zu Ihrem Problem. Es sollte die gleiche oder eine bessere Leistung haben als nichtparametrische Dosenprüfungen (z. B. Mann-Whitney), und Sie müssen sich keine Gedanken über das Normalitätsproblem machen. Und es macht Spaß, sie zu schreiben.

Tim
quelle