Der G-Test ist eine Möglichkeit, schnelle Schätzungen einer Chi-Quadrat-Verteilung zu erhalten, und wird vom Autor dieses bekannten A / B-Test-Tutorials empfohlen .
Dieses Tool nimmt eine Normalverteilung an und verwendet Mittelwerte, um das Vertrauen zu berechnen.
Was ist der Unterschied zwischen einem G-Test und einem T-Test? Welche Vor- oder Nachteile hat die Verwendung jeder Methode zur Messung der Wirksamkeit unserer A / B-Tests?
Ich versuche herauszufinden, mit welchem ich die Ergebnisse meines A / B-Test-Frameworks messen soll. Unser Framework verfügt über zwei allgemeine Anwendungsfälle: Teilen Sie die Besuchergruppe gleichmäßig auf, zeigen Sie jedem eine andere Funktion und messen Sie ihre Conversion auf einer anderen Seite (z. B. der Anmeldeseite). Teilen Sie die Besuchergruppe für einen Test in die Kontrollgruppe (90%) und eine Versuchsgruppe (10%) auf und messen Sie die Conversions auf einer anderen Seite.
Unsere Website wird zwischen 1000 und 200.000 Mal pro Tag besucht (ich bin absichtlich vage, um die wahre Zahl zu verbergen, was sich nicht viel ändert). Diese Besuche sind exponentiell auf etwa 300 Seiten verteilt.
Danke, Kevin
quelle
Antworten:
Im Allgemeinen ist der Test, der bei der Berechnung der Teststatistik weniger ungefähr ist, besser, obwohl alle mit zunehmender Stichprobengröße zu denselben Ergebnissen konvergieren.
Da sich A / B-Tests im Allgemeinen auf binäre Ergebnisse konzentrieren, ...
Kurze Antwort:
Verwenden Sie den G-Test, da er weniger ungefähr ist.
Lange Antwort:
Der t-Test, bei A / B-Tests der Fall ungleicher Stichprobengrößen und ungleicher Varianz , approximiert die Differenz zweier Verteilungen mit einer selbst fraglichen t-Verteilung . Die beiden Verteilungen mögen unbekannt sein, aber es wird angenommen, dass ihr Mittelwert und ihre Varianz ausreichen, um sie zu beschreiben (andernfalls hilft jede Schlussfolgerung nicht viel), was natürlich für die Normalverteilung gilt.
Zusammenfassend lässt sich sagen, dass, obwohl es in Ordnung ist, den t-Test anzuwenden, zwei Näherungen durchgeführt werden, um den Binomialfall in einen allgemeineren Fall umzuwandeln, was hier nicht erforderlich ist, da weniger Näherungstests wie der G-Test oder (noch besser) ) Für diesen Sonderfall liegen die genauen Tests von Fisher vor. Der exakte Fisher-Test sollte angewendet werden, insbesondere wenn die Stichprobengröße weniger als 20 beträgt (eine andere Faustregel), aber ich denke, dass dies bei einem soliden A / B-Test keine Rolle spielt.
quelle
Die Seite von Ben Tilly, auf die Sie verwiesen haben, ist eine hervorragende Zusammenfassung der A / B-Tests für Anfänger. Wenn Sie jedoch detailliertere Fragen / Probleme beim Studiendesign haben, sollten Sie nach detaillierteren Primärquellen suchen. Kohavi et al. Haben ein wegweisendes Papier über AB-Tests veröffentlicht, das eine gute Kombination aus Vollständigkeit und Lesbarkeit darstellt. Ich kann es nur empfehlen: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .
Zurück zu Ihren Fragen, die wirklichen Fragen, die Sie sich stellen sollten, sind:
Wenn Sie diese Fragen durcharbeiten, werden Sie schließlich ein besseres Verständnis der Testparameter erhalten. Kombiniert mit Ihrem Domain-Wissen (z. B. ob Ihre Site ein starkes zyklisches Muster aufweist, das Sie kontrollieren möchten), Appetit darauf, Benutzer Experimenten auszusetzen (sind Sie tatsächlich bereit , die Behandlungserfahrung vielen Benutzern zu zeigen, oder möchten Sie das lieber enthalten? potenzieller Schaden) und die gewünschte Geschwindigkeit, mit der Ergebnisse erzielt werden. Dieses Verständnis führt Sie letztendlich dazu, zu bestimmen, wie der Gesamtverkehr auf Kontrollen und Behandlungen aufgeteilt werden soll.
Ich hasse es, bestimmte Fragen mit "es kommt darauf an" zu beantworten, aber in diesem Fall hängt es wirklich davon ab, was mit Ihrer Site und Ihrem Experiment los ist. Unter bestimmten Umständen spielt es keine wesentliche Rolle, ob der Verkehr 50/50 oder 90/10 aufgeteilt wird, während dies unter verschiedenen Umständen sehr wichtig sein kann. YMMV, aber eine gute Referenz wie das oben zitierte Papier wird Sie definitiv in die richtige Richtung bewegen.
quelle
Ich kann den ursprünglichen Beitrag nicht kommentieren, da mir StackExchange-Punkte oder was auch immer fehlen, aber ich wollte nur darauf hinweisen, dass ABBA für den p-Wert keinen einfachen Z-Test auf Basis normaler Annäherung verwendet, obwohl ich dies kann Sehen Sie, wie Sie das denken könnten, indem Sie die Seite kurz lesen. ABBA verwendet exakte Binomialstatistiken bis zur Stichprobengröße 100 und stützt sich darüber hinaus auf die normale Näherung mit einer Kontinuitätskorrektur. Ich habe keine Fälle gesehen, in denen es sich stark von "weniger ungefähren" Tests unterscheidet, aber ich wäre sehr daran interessiert, solche Fälle zu sehen, wenn Sie auf sie stoßen.
Es sind in keinem Fall t-Verteilungen oder t-Tests vorhanden.
Für Konfidenzintervalle beruht es immer auf einer normalen Näherung, obwohl es die Agresti-Coull-Methode verwendet, die ziemlich gut funktioniert.
quelle