Nahezu jedes Lehrbuch, in dem die normale Annäherung an die Binomialverteilung erörtert wird, erwähnt die Faustregel, dass die Annäherung verwendet werden kann, wenn und . Einige Bücher schlagen stattdessen vor. Dieselbe Konstante zeigt sich häufig in Diskussionen darüber, wann Zellen im Test zusammengeführt werden sollen. Keiner der Texte, die ich gefunden habe, gibt eine Begründung oder Referenz für diese Faustregel.
Woher kommt diese Konstante 5? Warum nicht 4 oder 6 oder 10? Wo wurde diese Faustregel ursprünglich eingeführt?
Antworten:
Einige Möglichkeiten bietet der Wikipedia-Artikel über die Binomialverteilung im Abschnitt über die normale Approximation , der derzeit den folgenden Kommentar enthält (Hervorhebung von mir):
Dies ist nun damit verbunden, sicherzustellen, dass die normale Näherung innerhalb der gesetzlichen Grenzen für eine Binomialvariable x ∈ [ 0 , n ] liegt .x ∼ N.( μ , σ) x ∈ [ 0 , n ]
Um dies zu formulieren: Wenn wir die gewünschte Abdeckungswahrscheinlichkeit in Form eines z-Scores parametrisieren , haben wir μ ± z σ ∈ [ 0 , n ]z> 0
Unter Verwendung der Binomialmomenteμ=npund σ 2 =np(1-p)erfordern die obigen Einschränkungen
min
In dem Maße, in dem diese Überdeckungswahrscheinlichkeit "hübsch" ist und 5 eine schöne runde Zahl ist ... könnte das vielleicht eine Rechtfertigung geben? Ich habe nicht viel Erfahrung mit Wahrscheinlichkeitstexten und kann daher nicht sagen, wie häufig "5" im Vergleich zu anderen "spezifischen Zahlen" verwendet wird, um die Formulierung von Wikipedia zu verwenden. Ich habe das Gefühl, dass 5 nichts Besonderes ist, und Wikipedia schlägt vor, dass 9 ebenfalls häufig vorkommt (entsprechend einem "hübschen" von 3).z
quelle
Keine vollständige Erklärung, aber es ist interessant, zu Cochran 1952 Annals of Math Stats "Der Test der Anpassungsgüte" ( http://www.jstor.org/stable/2236678 ), Teil II ("Einige Aspekte") zurückzukehren der praktischen Anwendung des Tests "), der auf diesem Gebiet von ziemlich respektabler Antike ist ... Cochran diskutiert die Geschichte der theoretischen Grundlagen des Tests (Pearson 1900, Fisher 1922, 1924), berührt aber nicht den Faustregel bis zur folgenden Passage ... [Hervorhebung hinzugefügt]χ2
quelle
quelle
Die Regel liefert ein Kriterium, das sicherstellt, dass p weder nahe bei 0 noch bei 1 liegt. Wenn es näher bei 0 oder 1 liegt, ist die resultierende Verteilung keine gute Annäherung an die Normalverteilung.
Eine bildliche Begründung dafür finden Sie hier
quelle