Nehmen Sie die folgende Situation an:
Wir haben eine große Anzahl (zB 20) mit kleinen Gruppen (zB n = 3). Mir ist aufgefallen, dass, wenn ich Werte aus der gleichmäßigen Verteilung erzeuge, die Residuen ungefähr normal aussehen, obwohl die Fehlerverteilung gleichmäßig ist. Der folgende R-Code demonstriert dieses Verhalten:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Wenn ich den Rest einer Stichprobe in einer Dreiergruppe betrachte, ist der Grund für das Verhalten klar:
Da eine Summe von Zufallsvariablen mit einer nicht grob unterschiedlichen Standardabweichung ist, ist seine Verteilung der Normalverteilung ein gutes Stück näher als die der einzelnen Terme.
Angenommen, ich habe die gleiche Situation mit realen Daten anstelle von simulierten Daten. Ich möchte einschätzen, ob die ANOVA-Annahmen zur Normalität zutreffen. Die meisten empfohlenen Verfahren empfehlen eine Sichtprüfung der Residuen (z. B. QQ-Plot) oder einen Normalitätstest der Residuen. Wie mein Beispiel oben zeigt, ist dies für kleine Gruppen nicht optimal.
Gibt es eine bessere Alternative, wenn ich viele kleine Gruppen habe?
Antworten:
Anstatt unsere Hände frustriert zu erheben, können wir jetzt unter normalen Bedingungen die Korrektur kleiner Zahlen für unsere SDs anwenden. (Ha! Es gibt eine Lösung für unser Elend.)
Zumn = 3 , das ist Γ ( 32) = π√2≈ 0,8862269255 . Das bedeutet, dass wir unsere SD durch so viel teilen müssen, um abzuschätzenσ .
In dem Fall, dass Sie präsentieren, sind noch einige andere Dinge im Gange. Das beste Maß für die Position einer gleichmäßigen Verteilung ist jedoch nicht der Mittelwert. Obwohl sowohl der Stichprobenmittelwert als auch der Stichprobenmedian unverzerrte Schätzer des Mittelpunkts sind, ist keiner so effizient wie der Stichprobenmittelwert, dh das arithmetische Mittel des Stichprobenmaximums und des Stichprobenminimums, das die unverzerrte Schätzer- UMVU mit minimaler Varianz ist Schätzer des Mittelpunkts (und auch der maximalen Wahrscheinlichkeitsschätzung).
Nun zum Fleisch der Sache. Wenn Sie den Durchschnitt der Extremwerte verwenden, ist die Varianz des Positionsmaßes geringer, sofern Ihre Daten wirklich gleichmäßig verteilt sind. Es kann normalverteilt sein, da ein einzelner Extremwertschwanz durchaus normal sein kann. Bei nur 3 Abtastwerten muss die Standardabweichung jedoch korrigiert werden.
quelle