Kann eine kleine Stichprobengröße einen Fehler vom Typ 1 verursachen?

21

Ich habe erfahren, dass eine kleine Stichprobengröße zu unzureichender Leistung und Typ 2-Fehlern führen kann. Ich habe jedoch das Gefühl, dass kleine Proben im Allgemeinen unzuverlässig sind und zufällig zu jedem Ergebnis führen können. Ist das wahr?

sogar
quelle
Ich habe eine Abneigung gegen unnötige mathematische Notation, also habe ich den Titel bearbeitet. Könnten Sie bitte überprüfen, ob ich die Bedeutung nicht durch Ändern geändert habe?
mpiktas
1
Stellen Sie sicher, dass Sie auch über Hypothesentests (Neyman-Pearson-Tests) und nicht über Signifikanztests (Fisher-Tests) sprechen. Diese Ansätze sind häufig gemischt, auch wenn der zweite keine Fehleridee enthält, und die richtige Verwendung sollte unterschiedlich sein, da sie zu unterschiedlichen Schlussfolgerungen führt.
Seb
Wenn Sie einen asymptotischen Test verwenden, ist dies möglich. Ansonsten nein - Der Test ist zur Steuerung der Fehlerrate Typ 1 (dh ) definiert. α
Makro
Aber stimmt es nicht, wenn Sie zweimal Münzen werfen, ist die Wahrscheinlichkeit höher, dass Sie ein verzerrtes Ergebnis erzielen (2 gleiche Seiten (100%)), als wenn Sie 100-mal werfen, was höchstwahrscheinlich zu ca. 1 / 2, 1/2. Bedeutet dies nicht, dass je kleiner die Größe ist, desto wahrscheinlicher ist es, dass Typ-I-Fehler auftreten?

Antworten:

27

Im Allgemeinen erhöht eine kleine Stichprobengröße die Fehlerrate von Typ I nicht , da der Test lediglich die Typ I-Rate steuern soll. (Mit diskreten Ergebnissen sind geringfügige technische Ausnahmen verbunden, die dazu führen können, dass die nominelle Typ-I-Rate insbesondere bei kleinen Stichprobengrößen nicht exakt erreicht wird.)

Da ist ein wichtiges Prinzip : Wenn Ihr Test eine akzeptable Größe (= nominelle Typ-I-Rate) und eine akzeptable Leistung für den gewünschten Effekt aufweist, ist er auch dann in Ordnung, wenn die Stichprobengröße klein ist.

Die Gefahr besteht darin, dass wir uns über "Typ III" -Fehler Sorgen machen, wenn wir sonst nur wenig über die Situation wissen - vielleicht sind dies alle Daten, die wir haben -, dh Modellfehlspezifikationen. Sie können mit kleinen Probensätzen schwierig zu überprüfen sein.

Als praktisches Beispiel für das Zusammenspiel von Ideen möchte ich eine Geschichte erzählen. Vor langer Zeit wurde ich gebeten, eine Stichprobengröße zu empfehlen, um eine Umweltsanierung zu bestätigen. Dies war während der Vorbereinigungsphase, bevor wir Daten hatten. Mein Plan rief die 1000 oder so Proben für die Analyse , die sein würde , während der Reinigung erhalten (um festzustellen , dass genügend Boden an jeder Stelle entfernt worden war) , um die Post-Bereinigung Mittelwert und die Varianz der Schadstoffkonzentration zu beurteilen. Dann (zur Vereinfachung) sagte ich, wir würden eine Lehrbuchformel verwenden - basierend auf der angegebenen Leistung und Testgröße -, um die Anzahl unabhängiger Bestätigungsmuster zu bestimmen, die verwendet werden würden, um zu beweisen, dass die Bereinigung erfolgreich war.

Das Besondere daran war, dass nach der Bereinigung in der Formel nur drei Proben verwendet wurden. Plötzlich sah meine Empfehlung nicht mehr sehr glaubwürdig aus!

Der Grund für die Notwendigkeit von nur 3 Proben ist, dass die Reinigung aggressiv war und gut funktioniert hat. Es reduzierte die durchschnittlichen Schadstoffkonzentrationen auf etwa 100 ppm, was konsequent unter dem Zielwert von 500 ppm lag.

Am Ende funktionierte dieser Ansatz, weil wir die 1000 vorherigen Proben erhalten hatten (obwohl von geringerer analytischer Qualität: sie hatten einen größeren Messfehler), um festzustellen, dass die statistischen Annahmen für diesen Standort tatsächlich gut waren. Auf diese Weise wurde mit dem Potenzial für Typ III-Fehler umgegangen.

Noch eine Wendung für Ihre Überlegung: Da ich wusste, dass die Aufsichtsbehörde niemals nur 3 Proben zulassen würde, empfahl ich, 5 Messungen durchzuführen. Diese sollten aus 25 zufälligen Stichproben des gesamten Geländes bestehen. Compositing in Gruppen von 5 Statistisch gesehen gäbe es nur fünf Zahlen in der letzten Hypothese getestet werden, aber wir erreichen größere Macht einen isolierten „hot spot“ zu erkennen , um 25 physikalische Einnahme Proben. Dies unterstreicht die wichtige Beziehung zwischen der Anzahl der im Test verwendeten Zahlen und ihrer Ermittlung. Die statistische Entscheidungsfindung beinhaltet mehr als nur Algorithmen mit Zahlen!

Zu meiner immerwährenden Erleichterung bestätigten die fünf zusammengesetzten Werte, dass das Bereinigungsziel erreicht wurde.

whuber
quelle
1
(+1) Eine großartige Geschichte über aggressive Bereinigung und Fehler vom Typ III , wäre schön, wenn dies auch für wirtschaftliche Zeitreihen relevant wäre. Für deterministische Modelle oder Modelle mit niedrigem Rauschabstand ist eine kleine Stichprobengröße IMHO nicht das größte Problem (verglichen mit einer großen Menge sehr verrauscher, wahrscheinlich unabhängiger großer Stichproben, sind selbst Hauptkomponenten mit diesen schwer).
Dmitrij Celov
1
+1, für diejenigen, die daran interessiert sind, die im ersten Absatz erwähnten "technischen Ausnahmen im Zusammenhang mit diskreten Ergebnissen" besser zu verstehen, diskutiere ich diese hier: Vergleichen und Gegenüberstellen von p-Werten, Signifikanzniveaus und Typ-I-Fehlern .
gung - Reinstate Monica
1
+1, ein gutes Beispiel dafür, warum Sie bei einer nützlichen Stichprobe ohne wichtige Informationen keinen Stich machen können.
Freya Harrison
0

Eine weitere Folge einer kleinen Stichprobe ist die Zunahme des Fehlers Typ 2.

In der Arbeit "The place of statistics in psychology" (1960) hat Nunnally gezeigt, dass kleine Stichproben eine Punkt-Null-Hypothese im Allgemeinen nicht ablehnen. Diese Hypothese ist eine Hypothese mit einigen Parametern gleich Null und ist nach der betrachteten Erfahrung als falsch bekannt.

Im Gegensatz dazu erhöhen zu große Abtastwerte den Fehler vom Typ 1, da der p-Wert von der Größe der Abtastwerte abhängt, das Alpha-Signifikanzniveau jedoch festgelegt ist. Ein Test mit einer solchen Stichprobe wird immer die Nullhypothese verwerfen. Lesen Sie "Die Bedeutungslosigkeit statistischer Signifikanztests" von Johnson und Douglas (1999), um einen Überblick über das Problem zu erhalten.

Dies ist keine direkte Antwort auf die Frage, aber diese Überlegungen ergänzen sich.

Seb
quelle
+1 für den Aufruf der Ausgabe von großen Proben und Typ I Fehler
Josh Hemann
6
-1, der Kommentar, dass "zu große Stichproben den Fehler vom Typ 1 erhöhen", ist falsch. Sie können statistische Signifikanz und praktische Signifikanz verwechseln , da es eine Situation geben kann, in der der wahre Effekt nicht genau 0 ist, sondern so gering, dass er keine Konsequenzen hat, und wir würden den Nullwert für praktische Zwecke als "wahr" betrachten . In diesem Fall würde die Null mehr als (z. B.) 5% der Zeit und häufiger mit zunehmendem N verworfen. Genau genommen ist die Nullhypothese, dass der wahre Effekt genau 0 ist, jedoch nach Maßgabe falsch. Diese Ablehnungen sind also eigentlich keine Typ-I-Fehler.
gung - Reinstate Monica