Ich habe drei Gruppen von Daten, jede mit einer Binomialverteilung (dh jede Gruppe hat Elemente, die entweder Erfolg oder Misserfolg haben). Ich habe keine vorhergesagte Erfolgswahrscheinlichkeit, sondern kann mich nur auf die Erfolgsrate jedes Einzelnen als Annäherung an die wahre Erfolgsrate stützen. Ich habe nur diese Frage gefunden , die nahe liegt, sich aber nicht genau mit diesem Szenario zu befassen scheint.
Um den Test zu vereinfachen, sagen wir einfach, dass ich 2 Gruppen habe (3 können von diesem Basisfall aus erweitert werden).
- Versuche der Gruppe 1: = 2455
- Versuche der Gruppe 2: = 2730
- Erfolg Gruppe 1: = 1556
- Erfolg Gruppe 2: = 1671
Ich habe keine erwartete Erfolgswahrscheinlichkeit, nur das, was ich aus den Proben weiß. Meine implizite Erfolgsquote für die beiden Gruppen ist also:
- Erfolgsquote Gruppe 1: = 1556/2455 = 63,4%
- Erfolgsquote Gruppe 2: = 1671/2730 = 61,2%
Die Erfolgsrate jeder Stichprobe liegt ziemlich nahe. Meine Stichproben sind jedoch auch ziemlich groß. Wenn ich die CDF der Binomialverteilung überprüfe, um festzustellen, wie unterschiedlich sie von der ersten ist (wobei ich davon ausgehe, dass die erste der Nulltest ist), erhalte ich eine sehr geringe Wahrscheinlichkeit, dass die zweite erreicht werden kann.
In Excel:
1-BINOM.DIST (1556,2455,61,2%, WAHR) = 0,012
Hierbei wird jedoch keine Varianz des ersten Ergebnisses berücksichtigt, sondern nur davon ausgegangen, dass das erste Ergebnis die Testwahrscheinlichkeit ist.
Gibt es eine bessere Möglichkeit zu testen, ob sich diese beiden Datenmuster statistisch voneinander unterscheiden?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Antworten:
Die Lösung ist ein einfaches google entfernt: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing
Sie möchten also die folgende Nullhypothese mit der angegebenen Alternative vergleichen
H A : p 1 ≤ p 2H0:p1=p2 versusHA:p1≠p2
Sie müssen also nur die Teststatistik berechnen, die ist
Dabei gilt .p^=n1p^1+n2p^2n1+n2
Also, jetzt, in Ihrem Problem, , , und p 2=0,612n1=2455n2=2730.p^1=.634 p^2=.612 n1=2455 n2=2730.
Nachdem Sie die Teststatistik berechnet haben, müssen Sie nur den entsprechenden Wert für den kritischen Bereich berechnen, um auch Ihre Teststatistik zu vergleichen. Wenn Sie diese Hypothese beispielsweise auf dem Konfidenzniveau von 95% testen, müssen Sie Ihre Teststatistik mit dem Wert für den kritischen Bereich von (für diesen Test mit zwei Endpunkten) vergleichen.zα/2=1.96
Wenn nun ist, können Sie die Nullhypothese ablehnen, andernfalls müssen Sie die Nullhypothese nicht ablehnen.z>zα/2
Nun, diese Lösung funktioniert für den Fall, dass Sie zwei Gruppen vergleichen, aber sie lässt sich nicht auf den Fall verallgemeinern, in dem Sie drei Gruppen vergleichen möchten.
Sie können jedoch einen Chi-Quadrat-Test verwenden, um zu testen, ob alle drei Gruppen die gleichen Anteile haben, wie von @Eric in seinem obigen Kommentar vorgeschlagen: "Hilft diese Frage? Stats.stackexchange.com/questions/25299/… - Eric"
quelle
In R wird die Antwort wie folgt berechnet:
quelle
Nur eine Zusammenfassung:
Dan und Abaumanns Antworten schlagen vor, Tests unter einem Binomialmodell durchzuführen, bei dem die Nullhypothese ein einheitliches einzelnes Binomialmodell ist, dessen Mittelwert aus den empirischen Daten geschätzt wird. Ihre Antworten sind theoretisch korrekt, aber sie müssen unter Verwendung der Normalverteilung approximiert werden, da die Verteilung der Teststatistik nicht genau der Normalverteilung folgt. Daher ist es nur für große Stichproben geeignet.
Davids Antwort zeigt jedoch einen nichtparametrischen Test mit dem Fisher-Test an. Die Informationen finden Sie hier: https://en.wikipedia.org/wiki/Fisher%27s_exact_test Und er kann auf kleine Stichprobengrößen angewendet werden, ist jedoch für große Stichprobengrößen schwer zu berechnen.
Welcher Test zu verwenden ist und wie sehr Sie Ihrem p-Wert vertrauen, ist ein Rätsel. Aber es gibt immer Vorurteile, bei welchen Tests man sich entscheiden muss.
quelle
quelle
In Python hat statsmodels eine Funktion namens
proportions_ztest
. Hier ist ein Beispiel für seine Verwendung:Dies druckt aus:
quelle
Ursprünglicher Beitrag: Dans Antwort ist tatsächlich falsch, um niemanden zu beleidigen. Ein Z-Test wird nur verwendet, wenn Ihre Daten einer Standardnormalverteilung entsprechen. In diesem Fall folgen Ihre Daten einer Binomialverteilung. Verwenden Sie daher einen Chi-Quadrat-Test, wenn Ihre Stichprobe groß ist, oder einen Fischertest, wenn Ihre Stichprobe klein ist.
Edit: Mein Fehler, entschuldige mich bei @Dan. Ein Z-Test ist hier gültig, wenn Ihre Variablen unabhängig sind. Wenn diese Annahme nicht erfüllt oder unbekannt ist, ist ein Z-Test möglicherweise ungültig.
quelle