Ich habe einen Datensatz mit Handy-Kundeninformationsdaten mit zwei Spalten. Die erste Spalte enthält die bestimmte Kategorie, in die ein Konto fällt (entweder A, B oder C), und die zweite Spalte enthält einen Binärwert für die Kündigung dieses Kontos. z.B
A | cancelled
C | active
B | active
A | cancelled
Ich möchte eine Art Hypothesentest erstellen, um zu testen, ob das Verhältnis der Konten vom Typ A, B und C für aktive Konten zu stornierten Konten unterschiedlich ist - die Nullhypothese lautet, dass sie gleich sind. Es ist also wie ein Hypothesentest für Proportionen, außer dass ich nicht weiß, wie man das für 3 Werte macht
hypothesis-testing
equivalence
user1893354
quelle
quelle
Antworten:
Ich werde meine Antwort allgemein begründen und Kommentare dazu einfügen, wie Ihr Problem in das Test-Framework passt. Im Allgemeinen können wir die Gleichheit der Proportionen mit einem Test testen, wobei die typische Nullhypothese wie folgt lautet:χ2 H0
dh alle Proportionen sind einander gleich. In Ihrem Fall lautet Ihre Nullhypothese wie folgt:
Um nun den Test durchzuführen, müssen wir die folgende Teststatistik berechnen: Der Wert der Teststatistik istχ2
wo
In Ihrem Fall ist da wir uns dieses Problem wie folgt vorstellen können:n=6
Sobald wir die Teststatistik haben, haben wir zwei Möglichkeiten, wie wir unsere Hypothesentests abschließen können.
Option 1) Wir können unseren statischen Test mit dem entsprechenden kritischen Wert unter der Nullhypothese vergleichen. Das heißt, wenn wahr ist, sollte eine Statistik aus einer Kontingenztabelle mit Zeilen und Spalten eine Verteilung mit Grad von haben Freiheit. Nach der Berechnung unseres kritischen Wertes wenn wir diesen wir die Nullhypothese ablehnen. Wenn dann können wir die Nullhypothese offensichtlich nicht ablehnen.χ2 H0 χ2 R C χ2 (R−1)×(C−1) χ∗ χ2>χ∗ χ2≤χ∗
Grafisch (alle Zahlen sind zusammengesetzt) ist dies das Folgende:
Wenn aus unserer Grafik unsere Teststatistik der blauen Teststatistik entspricht, würden wir die Nullhypothese nicht ablehnen, da diese Teststatistik nicht in den kritischen Bereich fällt (dh ). Alternativ fällt die grüne Teststatistik in den kritischen Bereich, sodass wir die Nullhypothese ablehnen würden, wenn wir die grüne Teststatistik berechnet hätten.χ2 χ2<χ∗
In Ihrem Beispiel sind Ihre Freiheitsgrade gleich
Option 2) Wir können den mit der Teststatistik verknüpften p-Wert unter der Nullhypothese berechnen. Wenn dieser p-Wert kleiner als ein bestimmter -Wert ist, können wir die Nullhypothese ablehnen. Wenn der p-Wert größer als der -Wert ist, können wir die Nullhypothese nicht ablehnen. Beachten Sie, dass der p-Wert die Wahrscheinlichkeit ist, dass eine -Verteilung größer ist als die Teststatistik.α α χ2(R−1)×(C−1)
Grafisch haben wir das
Dabei wird der p-Wert als die Fläche berechnet, die größer als unsere Teststatistik ist (die blau schattierte Fläche im Beispiel).
Wenn also ist, kann die Nullhypothese verworfen werden.α>p-value H0
Wenn die Nullhypotheseα≤p-value H0
quelle