Welchen Test verwenden Sie, um die Proportionen zwischen 3 Gruppen zu vergleichen?

8

Wir testen eine E-Mail-Marketingkampagne. Bei unserem ersten Test haben wir zwei verschiedene E-Mail-Typen verschickt und hatten eine dritte Kontrollgruppe, die keine E-Mail erhalten hat. Jetzt erhalten wir "Ergebnisse" als Anteil der Benutzer zurück, die zu unserer App zurückgekehrt sind. Hier sind die Ergebnisse:

Group | received e-mail | returned | %-returned
A | 16,895 | 934 | 5.53%
B | 17,530 | 717 | 4.09%
C | 42408 | 1618 | 3.82%

Es sieht so aus, als wäre Gruppe A tatsächlich besser als B und C, aber was ist der richtige Test, um dies zu zeigen?

thecity2
quelle
2
Recall dass die Standardabweichung des Anteils in einem Experiment Binomialverteilung Einbeziehung unabhängige Ergebnisse mit Erfolgswahrscheinlichkeit ist . Das Einstecken der Schätzungen von ergibt Standardfehler von %, % bzw. %. (Diese Werte können leicht nur geschätzt werden , indem man die Daten suchen. Kein Computer benötigt wird) , da die Differenz % - % = 1,44 % fast zehn gleich jeder dieser Standardfehler, ist das Ergebnis Es ist offensichtlich, dass A eine höhere Rücklaufquote als B oder C aufweist und keine formalen Tests erforderlich sind.npp(1p)/np0.180.150.095.53max(4.09,3.82)1.44
whuber
@whuber Nur eine kurze Folgefrage. In diesem Fall kann die normale Annäherung vorgenommen werden, aber was wäre, wenn die% noch kleiner wären, sagen wir <1%. Welcher Test wäre in diesem Fall sinnvoll?
Thecity2
1
Gute Frage. Was zählt, sind nicht die Prozentsätze, sondern die tatsächlichen Zahlen. Machen Sie sich keine Sorgen, bis diese Zählungen (oder ihre Ergänzungen - die nicht erhaltenen Zahlen ) etwa 30 oder weniger betragen (je nachdem, wie klar die Ergebnisse sind, können manchmal sogar Zählungen von 5 in Ordnung sein). Wenn Prozent und Anzahl niedrig sind, ist die Poisson-Näherung großartig und Sie sollten die logistische Regression berücksichtigen, wie von @gung empfohlen. Das ist auch ein guter allgemeiner Ansatz.
whuber

Antworten:

2

In einer Tabelle wie dieser können Sie die durch einen G-Test erstellte G-Statistik partitionieren, anstatt die ORs zu berechnen oder eine logistische Regression auszuführen. Obwohl Sie entscheiden müssen, wie Sie es partitionieren wollen. Hier ist die G-Statistik, die Pearsons X ^ 2 ähnlich ist und auch einer X ^ 2-Verteilung folgt, wie folgt:

G = 2 * Summe (OBS * ln (OBS / EXP)).

Sie berechnen dies zunächst für die Gesamttabelle, in diesem Fall: G = 76,42 auf 2 df, was hoch signifikant ist (p <0,0001). Das heißt, die Rücklaufquote hängt von der Gruppe ab (A, B oder C).

Da Sie dann 2 df haben, können Sie zwei kleinere 1 df (2x2) G-Tests durchführen. Nach dem Ausführen der ersten Ebene müssen Sie jedoch die Zeilen der beiden im ersten Test verwendeten Ebenen reduzieren und diese Werte dann verwenden, um sie mit der dritten Ebene zu testen. Nehmen wir an, Sie testen zuerst B gegen C.

Obs   Rec    Ret    Total
B   17530    717    18247
C   42408   1618    44026

Exp     Rec    Ret  Total
B   17562.8  684.2  18247
C   42375.2 1650.8  44026

Dies ergibt einen G-stat von 2,29 auf 1 df, was nicht signifikant ist (p = 0,1300). Erstellen Sie dann eine neue Tabelle und kombinieren Sie die Zeilen B und C. Testen Sie nun A gegen B + C.

Obs   Rec    Ret    Total
A   16895    934    17829
B+C 59938   2335    62273

Exp     Rec    Ret  Total
A   17101.4  727.6  17829
B+C 59731.6 2541.4  62273

Dies ergibt einen G-stat von 74,13 auf 1 df, was ebenfalls hoch signifikant ist (p <0,0001).

Sie können Ihre Arbeit überprüfen, indem Sie die beiden kleineren Teststatistiken hinzufügen, die der größeren Teststatistik entsprechen sollten. Es tut: 2,29 + 74,13 = 76,42

Die Geschichte hier ist, dass sich Ihre B- und C-Gruppen nicht wesentlich unterscheiden, aber dass Gruppe A eine höhere Rücklaufquote aufweist als B und C zusammen.

Ich hoffe, das hilft!

Sie hätten den G-stat auch anders partitionieren können, indem Sie zuerst A mit B, dann C mit A + B oder A mit C und dann B mit A + C verglichen hätten. Darüber hinaus können Sie dies auf 4 oder mehr Gruppen erweitern. Nach jedem Test müssen Sie jedoch die beiden soeben getesteten Zeilen reduzieren, wobei die maximale Anzahl von Tests dem df in Ihrer ursprünglichen Tabelle entspricht. Es gibt andere Möglichkeiten, mit komplizierteren Tabellen zu partitionieren. Agrestis Buch "Categorical Data Analysis" sollte die Details enthalten. Insbesondere sein Kapitel über Inferenz für Zwei-Wege-Kontingenztabellen.

jww
quelle
1

Ich würde einfach die Quoten- (oder Risiko-) Verhältnisse zwischen Gruppe A und B, zwischen B und C sowie zwischen A und C berechnen und prüfen, ob sie sich statistisch unterscheiden. Ich sehe in diesem Fall keinen Grund, einen "Omnibus" -Proportionstest durchzuführen, da Sie nur drei Gruppen haben. Drei Chi-Quadrat-Tests könnten ebenfalls den Trick machen.

Wie einige der Personen in den Kommentaren unten dargelegt haben, würde auch eine logistische Regression mit geplanten Kontrasten gut funktionieren.

Behacad
quelle
3
Hier besteht ein potenzielles Problem mit mehreren Vergleichen. Warum nicht einfach eine logistische Regression mit 2 Dummy-Codes für B & C durchführen?
Gung - Reinstate Monica
1
Ja, sicher, aber das Problem der Mehrfachvergleiche ist bei drei Vergleichen ziemlich gering.
Behacad
@gung macht einige gute Punkte. Logistische Regression wäre der einfachste Ansatz - und wenn man einen Chi-Quadrat-Testansatz durchführen würde, würde man fast definitiv mit einem Omnibus-Test (der Kontingenztabelle für 3x2-Tabellen) beginnen, bevor man Zwei-Gruppen-Vergleiche durchführt (obwohl dies der Fall ist) würde der "allgemeinen" Bedeutung des logistischen Regressionsmodells entsprechen, das in diesem Fall passt.)
James Stanley
1
Unter Verwendung dieses Vorschlags (und Wikipedia) stellte ich fest, dass sich der 95% -KI für die logarithmischen Quoten von A / B und A / C nicht mit 0 überlappte und dass sich das logarithmische Quotenverhältnis für B / C mit 0 überlappte bedeuten, dass A sich signifikant von B & C unterscheidet?
Thecity2
@Behacad, Sie haben Recht, dass mit nur 3 Vergleichen mehrere Vergleichsprobleme weniger intensiv wären, aber ich würde immer noch mit einem LR-Modell beginnen. Im Idealfall würden geplante Vergleiche folgen.
Gung - Reinstate Monica