Hypothesentest auf Proportionengleichheit mit 3 Proben

9

Ich habe einen Datensatz mit Handy-Kundeninformationsdaten mit zwei Spalten. Die erste Spalte enthält die bestimmte Kategorie, in die ein Konto fällt (entweder A, B oder C), und die zweite Spalte enthält einen Binärwert für die Kündigung dieses Kontos. z.B

A | cancelled
C | active
B | active
A | cancelled

Ich möchte eine Art Hypothesentest erstellen, um zu testen, ob das Verhältnis der Konten vom Typ A, B und C für aktive Konten zu stornierten Konten unterschiedlich ist - die Nullhypothese lautet, dass sie gleich sind. Es ist also wie ein Hypothesentest für Proportionen, außer dass ich nicht weiß, wie man das für 3 Werte macht

user1893354
quelle
6
Sie können einen Test verwenden, um die Proportionengleichheit zwischen den drei Gruppen zu testen. χ2
Ich denke auch, ich könnte drei Hypothesentests A gegen B, B gegen C und A gegen C durchführen, um zu sehen, ob sie unterschiedlich sind
user1893354
5
Sie könnten, aber seien Sie sich bewusst, dass Sie dann Probleme mehrerer Vergleiche korrigieren müssten.
Vielen Dank für Ihre Antwort. Ich bin nur neugierig, was Sie unter Problemen mehrerer Vergleiche verstehen. Oder genauer gesagt, warum die Drei-Hypothesen-Testmethode nachteilig ist. Vielen Dank!
user1893354
3
Es gibt zwei Probleme bei der Verwendung von drei Hypothesentests. Erstens sind sie voneinander abhängig, da jedes Paar einige der Daten wiederverwendet. Zweitens, wenn sie tatsächlich unabhängig wären, wäre die Wahrscheinlichkeit, dass mindestens einer von ihnen signifikant wäre, selbst wenn die Null wahr ist - das heißt, die Wahrscheinlichkeit eines falsch positiven Fehlers - fast dreimal größer als die gewünschte falsche positive Rate. Das zweite Problem zeigt an, dass der Test angepasst werden muss, das erste zeigt jedoch, dass das Finden der geeigneten Anpassung problematisch sein kann. Der Ansatz vermeidet diese Probleme. χ2
whuber

Antworten:

13

Ich werde meine Antwort allgemein begründen und Kommentare dazu einfügen, wie Ihr Problem in das Test-Framework passt. Im Allgemeinen können wir die Gleichheit der Proportionen mit einem Test testen, wobei die typische Nullhypothese wie folgt lautet:χ2H0

H0:p1=p2=...=pk

dh alle Proportionen sind einander gleich. In Ihrem Fall lautet Ihre Nullhypothese wie folgt:

H0:p1=p2=p3
und die alternative Hypothese ist
HA: at leat one pi is different for i=1,2,3

Um nun den Test durchzuführen, müssen wir die folgende Teststatistik berechnen: Der Wert der Teststatistik istχ2

χ2=i=1n(OiEi)2Ei

wo

  • χ2 = Pearsons kumulative Teststatistik, die sich asymptotisch einer Verteilung nähertχ2
  • Oi = die beobachtete Frequenz
  • Ei = eine erwartete (theoretische) Frequenz, die durch die Nullhypothese bestätigt wird
  • n = die Anzahl der Zellen in der Tabelle

In Ihrem Fall ist da wir uns dieses Problem wie folgt vorstellen können: n=6Geben Sie hier die Bildbeschreibung ein

Sobald wir die Teststatistik haben, haben wir zwei Möglichkeiten, wie wir unsere Hypothesentests abschließen können.

Option 1) Wir können unseren statischen Test mit dem entsprechenden kritischen Wert unter der Nullhypothese vergleichen. Das heißt, wenn wahr ist, sollte eine Statistik aus einer Kontingenztabelle mit Zeilen und Spalten eine Verteilung mit Grad von haben Freiheit. Nach der Berechnung unseres kritischen Wertes wenn wir diesen wir die Nullhypothese ablehnen. Wenn dann können wir die Nullhypothese offensichtlich nicht ablehnen. χ2H0χ2RCχ2(R1)×(C1)χχ2>χχ2χ

Grafisch (alle Zahlen sind zusammengesetzt) ​​ist dies das Folgende: Geben Sie hier die Bildbeschreibung ein

Wenn aus unserer Grafik unsere Teststatistik der blauen Teststatistik entspricht, würden wir die Nullhypothese nicht ablehnen, da diese Teststatistik nicht in den kritischen Bereich fällt (dh ). Alternativ fällt die grüne Teststatistik in den kritischen Bereich, sodass wir die Nullhypothese ablehnen würden, wenn wir die grüne Teststatistik berechnet hätten.χ2χ2<χ

In Ihrem Beispiel sind Ihre Freiheitsgrade gleich

df=(R1)×(C1)=(21)×(31)=1×2=2

Option 2) Wir können den mit der Teststatistik verknüpften p-Wert unter der Nullhypothese berechnen. Wenn dieser p-Wert kleiner als ein bestimmter -Wert ist, können wir die Nullhypothese ablehnen. Wenn der p-Wert größer als der -Wert ist, können wir die Nullhypothese nicht ablehnen. Beachten Sie, dass der p-Wert die Wahrscheinlichkeit ist, dass eine -Verteilung größer ist als die Teststatistik.ααχ(R1)×(C1)2

Grafisch haben wir das Geben Sie hier die Bildbeschreibung ein

Dabei wird der p-Wert als die Fläche berechnet, die größer als unsere Teststatistik ist (die blau schattierte Fläche im Beispiel).

Wenn also ist, kann die Nullhypothese verworfen werden.α>p-valueH0

Wenn die Nullhypotheseαp-valueH0


quelle