Ich habe erfahren, dass eine kleine Stichprobengröße zu unzureichender Leistung und Typ 2-Fehlern führen kann. Ich habe jedoch das Gefühl, dass kleine Proben im Allgemeinen unzuverlässig sind und zufällig zu jedem Ergebnis führen können. Ist das wahr?
21
Antworten:
Im Allgemeinen erhöht eine kleine Stichprobengröße die Fehlerrate von Typ I nicht , da der Test lediglich die Typ I-Rate steuern soll. (Mit diskreten Ergebnissen sind geringfügige technische Ausnahmen verbunden, die dazu führen können, dass die nominelle Typ-I-Rate insbesondere bei kleinen Stichprobengrößen nicht exakt erreicht wird.)
Da ist ein wichtiges Prinzip : Wenn Ihr Test eine akzeptable Größe (= nominelle Typ-I-Rate) und eine akzeptable Leistung für den gewünschten Effekt aufweist, ist er auch dann in Ordnung, wenn die Stichprobengröße klein ist.
Die Gefahr besteht darin, dass wir uns über "Typ III" -Fehler Sorgen machen, wenn wir sonst nur wenig über die Situation wissen - vielleicht sind dies alle Daten, die wir haben -, dh Modellfehlspezifikationen. Sie können mit kleinen Probensätzen schwierig zu überprüfen sein.
Als praktisches Beispiel für das Zusammenspiel von Ideen möchte ich eine Geschichte erzählen. Vor langer Zeit wurde ich gebeten, eine Stichprobengröße zu empfehlen, um eine Umweltsanierung zu bestätigen. Dies war während der Vorbereinigungsphase, bevor wir Daten hatten. Mein Plan rief die 1000 oder so Proben für die Analyse , die sein würde , während der Reinigung erhalten (um festzustellen , dass genügend Boden an jeder Stelle entfernt worden war) , um die Post-Bereinigung Mittelwert und die Varianz der Schadstoffkonzentration zu beurteilen. Dann (zur Vereinfachung) sagte ich, wir würden eine Lehrbuchformel verwenden - basierend auf der angegebenen Leistung und Testgröße -, um die Anzahl unabhängiger Bestätigungsmuster zu bestimmen, die verwendet werden würden, um zu beweisen, dass die Bereinigung erfolgreich war.
Das Besondere daran war, dass nach der Bereinigung in der Formel nur drei Proben verwendet wurden. Plötzlich sah meine Empfehlung nicht mehr sehr glaubwürdig aus!
Der Grund für die Notwendigkeit von nur 3 Proben ist, dass die Reinigung aggressiv war und gut funktioniert hat. Es reduzierte die durchschnittlichen Schadstoffkonzentrationen auf etwa 100 ppm, was konsequent unter dem Zielwert von 500 ppm lag.
Am Ende funktionierte dieser Ansatz, weil wir die 1000 vorherigen Proben erhalten hatten (obwohl von geringerer analytischer Qualität: sie hatten einen größeren Messfehler), um festzustellen, dass die statistischen Annahmen für diesen Standort tatsächlich gut waren. Auf diese Weise wurde mit dem Potenzial für Typ III-Fehler umgegangen.
Noch eine Wendung für Ihre Überlegung: Da ich wusste, dass die Aufsichtsbehörde niemals nur 3 Proben zulassen würde, empfahl ich, 5 Messungen durchzuführen. Diese sollten aus 25 zufälligen Stichproben des gesamten Geländes bestehen. Compositing in Gruppen von 5 Statistisch gesehen gäbe es nur fünf Zahlen in der letzten Hypothese getestet werden, aber wir erreichen größere Macht einen isolierten „hot spot“ zu erkennen , um 25 physikalische Einnahme Proben. Dies unterstreicht die wichtige Beziehung zwischen der Anzahl der im Test verwendeten Zahlen und ihrer Ermittlung. Die statistische Entscheidungsfindung beinhaltet mehr als nur Algorithmen mit Zahlen!
Zu meiner immerwährenden Erleichterung bestätigten die fünf zusammengesetzten Werte, dass das Bereinigungsziel erreicht wurde.
quelle
Eine weitere Folge einer kleinen Stichprobe ist die Zunahme des Fehlers Typ 2.
In der Arbeit "The place of statistics in psychology" (1960) hat Nunnally gezeigt, dass kleine Stichproben eine Punkt-Null-Hypothese im Allgemeinen nicht ablehnen. Diese Hypothese ist eine Hypothese mit einigen Parametern gleich Null und ist nach der betrachteten Erfahrung als falsch bekannt.
Im Gegensatz dazu erhöhen zu große Abtastwerte den Fehler vom Typ 1, da der p-Wert von der Größe der Abtastwerte abhängt, das Alpha-Signifikanzniveau jedoch festgelegt ist. Ein Test mit einer solchen Stichprobe wird immer die Nullhypothese verwerfen. Lesen Sie "Die Bedeutungslosigkeit statistischer Signifikanztests" von Johnson und Douglas (1999), um einen Überblick über das Problem zu erhalten.
Dies ist keine direkte Antwort auf die Frage, aber diese Überlegungen ergänzen sich.
quelle