Unterschied zwischen G-Test und T-Test und welcher sollte für A / B-Tests verwendet werden?

8

Der G-Test ist eine Möglichkeit, schnelle Schätzungen einer Chi-Quadrat-Verteilung zu erhalten, und wird vom Autor dieses bekannten A / B-Test-Tutorials empfohlen .

Dieses Tool nimmt eine Normalverteilung an und verwendet Mittelwerte, um das Vertrauen zu berechnen.

Was ist der Unterschied zwischen einem G-Test und einem T-Test? Welche Vor- oder Nachteile hat die Verwendung jeder Methode zur Messung der Wirksamkeit unserer A / B-Tests?

Ich versuche herauszufinden, mit welchem ​​ich die Ergebnisse meines A / B-Test-Frameworks messen soll. Unser Framework verfügt über zwei allgemeine Anwendungsfälle: Teilen Sie die Besuchergruppe gleichmäßig auf, zeigen Sie jedem eine andere Funktion und messen Sie ihre Conversion auf einer anderen Seite (z. B. der Anmeldeseite). Teilen Sie die Besuchergruppe für einen Test in die Kontrollgruppe (90%) und eine Versuchsgruppe (10%) auf und messen Sie die Conversions auf einer anderen Seite.

Unsere Website wird zwischen 1000 und 200.000 Mal pro Tag besucht (ich bin absichtlich vage, um die wahre Zahl zu verbergen, was sich nicht viel ändert). Diese Besuche sind exponentiell auf etwa 300 Seiten verteilt.

Danke, Kevin

Kevin Burke
quelle
4
Die Randomisierung von Besuchern (dh 50: 50-Chance auf Kontrolle oder experimentelle Behandlung) ist im Allgemeinen ein gutes Design , vorausgesetzt, Ihre experimentelle Behandlung tut den Besuchern nichts Schreckliches. Auch 1000-200.000 ist eine große Bandbreite; Gibt es einen Grund zu der Annahme, dass Besucher an ruhigen / geschäftigen Tagen (im Durchschnitt) von der Kontrolle / experimentellen Behandlung unterschiedlich betroffen wären?
Gast
Hallo, der Bereich ist vage, weil ich die tatsächliche Anzahl lieber nicht teilen möchte. Die Schwankungen zwischen den Tagen sind nicht groß.
Kevin Burke
Hallo Kevin. Ich frage mich, ob Sie einen Punkt für mich klarstellen könnten. Der Titel fragt nach dem Unterschied zwischen einem Test und einem t- Test. Wenn Sie die Frage lesen, wird fast so gelesen, als ob Sie daran interessiert wären, welche der beiden Arten der Stichprobenaufteilung verwendet werden soll. Tatsächlich sieht es so aus, als hätte die eine Antwort, die derzeit veröffentlicht wird, die Fragen dahingehend interpretiert, dass sie letztere betreffen. Können Sie das kurz ansprechen? Prost. Gt
Kardinal
Ich bin mehr an dem Unterschied zwischen einem G-Test und einem T-Test interessiert, werde die Frage aktualisieren, um zu klären.
Kevin Burke

Antworten:

8

Im Allgemeinen ist der Test, der bei der Berechnung der Teststatistik weniger ungefähr ist, besser, obwohl alle mit zunehmender Stichprobengröße zu denselben Ergebnissen konvergieren.

Da sich A / B-Tests im Allgemeinen auf binäre Ergebnisse konzentrieren, ...

Kurze Antwort:

Verwenden Sie den G-Test, da er weniger ungefähr ist.

Lange Antwort:

Der t-Test, bei A / B-Tests der Fall ungleicher Stichprobengrößen und ungleicher Varianz , approximiert die Differenz zweier Verteilungen mit einer selbst fraglichen t-Verteilung . Die beiden Verteilungen mögen unbekannt sein, aber es wird angenommen, dass ihr Mittelwert und ihre Varianz ausreichen, um sie zu beschreiben (andernfalls hilft jede Schlussfolgerung nicht viel), was natürlich für die Normalverteilung gilt.

μ=np,σ2=np(1p)np(1p)9np

Zusammenfassend lässt sich sagen, dass, obwohl es in Ordnung ist, den t-Test anzuwenden, zwei Näherungen durchgeführt werden, um den Binomialfall in einen allgemeineren Fall umzuwandeln, was hier nicht erforderlich ist, da weniger Näherungstests wie der G-Test oder (noch besser) ) Für diesen Sonderfall liegen die genauen Tests von Fisher vor. Der exakte Fisher-Test sollte angewendet werden, insbesondere wenn die Stichprobengröße weniger als 20 beträgt (eine andere Faustregel), aber ich denke, dass dies bei einem soliden A / B-Test keine Rolle spielt.

steffen
quelle
p=.9p=.1
@gung danke für den Hinweis, es war Tippfehler. Übrigens: Referenz ist Hartung: Statistik, Oldenbourg 14. Auflage (leider nur in deutscher Sprache erhältlich)
steffen
5

Die Seite von Ben Tilly, auf die Sie verwiesen haben, ist eine hervorragende Zusammenfassung der A / B-Tests für Anfänger. Wenn Sie jedoch detailliertere Fragen / Probleme beim Studiendesign haben, sollten Sie nach detaillierteren Primärquellen suchen. Kohavi et al. Haben ein wegweisendes Papier über AB-Tests veröffentlicht, das eine gute Kombination aus Vollständigkeit und Lesbarkeit darstellt. Ich kann es nur empfehlen: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .

Zurück zu Ihren Fragen, die wirklichen Fragen, die Sie sich stellen sollten, sind:

  1. Wie viele Eindrücke muss ich in die Behandlungen und die Kontrolle einbringen, damit das Ergebnis signifikant ist?
  2. Was ist die minimale Effektgröße, um die es mir geht? Interessieren Sie sich für Behandlungen, die mindestens 5% besser als Kontrollen oder 0,005% besser sind?
  3. Gibt es bei mehreren Behandlungen ein Szenario für den Vergleich von Behandlungen untereinander oder reicht es aus, jede Behandlung mit der Kontrolle zu vergleichen?
  4. Welche Variablen sind wichtig zu messen, um sicherzustellen, dass die Behandlungsgruppen nicht von unbeabsichtigten Nebenwirkungen Ihres Experiments betroffen sind. Kohavi-Papier hat ein gutes Beispiel dafür in Bezug auf die Leistung der Website: Wenn Ihre Behandlungserfahrung langsamer ist als die Kontrolle aus irgendeinem Grund (mehr Bilder, anderer Server, schneller und schmutziger Code), kann dies den Test ernsthaft entgleisen lassen.
  5. Ist es sinnvoller, Benutzer oder Impressionen in die Experimente einzuschreiben? Mit anderen Worten, ist es sinnvoll sicherzustellen, dass der Benutzer für die Dauer der Sitzung / des Testzeitraums immer entweder Kontroll- oder Behandlungserfahrung erhält, oder können Sie jeden Seitenabdruck einzeln in den Test einschreiben?

Wenn Sie diese Fragen durcharbeiten, werden Sie schließlich ein besseres Verständnis der Testparameter erhalten. Kombiniert mit Ihrem Domain-Wissen (z. B. ob Ihre Site ein starkes zyklisches Muster aufweist, das Sie kontrollieren möchten), Appetit darauf, Benutzer Experimenten auszusetzen (sind Sie tatsächlich bereit , die Behandlungserfahrung vielen Benutzern zu zeigen, oder möchten Sie das lieber enthalten? potenzieller Schaden) und die gewünschte Geschwindigkeit, mit der Ergebnisse erzielt werden. Dieses Verständnis führt Sie letztendlich dazu, zu bestimmen, wie der Gesamtverkehr auf Kontrollen und Behandlungen aufgeteilt werden soll.

Ich hasse es, bestimmte Fragen mit "es kommt darauf an" zu beantworten, aber in diesem Fall hängt es wirklich davon ab, was mit Ihrer Site und Ihrem Experiment los ist. Unter bestimmten Umständen spielt es keine wesentliche Rolle, ob der Verkehr 50/50 oder 90/10 aufgeteilt wird, während dies unter verschiedenen Umständen sehr wichtig sein kann. YMMV, aber eine gute Referenz wie das oben zitierte Papier wird Sie definitiv in die richtige Richtung bewegen.

Inverseofverse
quelle
3
Vielen Dank für eine nachdenkliche und hilfreiche Antwort. Mir ist klar, dass Sie jetzt seit ein paar Monaten hier sind, aber da dies Ihre erste Antwort ist, scheint es eine gute Gelegenheit zu sein, Sie auf der Website willkommen zu heißen. Ich hoffe, Sie werden sich inspiriert fühlen, im Laufe der Zeit mehr solche Ratschläge zu geben!
whuber
4

Ich kann den ursprünglichen Beitrag nicht kommentieren, da mir StackExchange-Punkte oder was auch immer fehlen, aber ich wollte nur darauf hinweisen, dass ABBA für den p-Wert keinen einfachen Z-Test auf Basis normaler Annäherung verwendet, obwohl ich dies kann Sehen Sie, wie Sie das denken könnten, indem Sie die Seite kurz lesen. ABBA verwendet exakte Binomialstatistiken bis zur Stichprobengröße 100 und stützt sich darüber hinaus auf die normale Näherung mit einer Kontinuitätskorrektur. Ich habe keine Fälle gesehen, in denen es sich stark von "weniger ungefähren" Tests unterscheidet, aber ich wäre sehr daran interessiert, solche Fälle zu sehen, wenn Sie auf sie stoßen.

Es sind in keinem Fall t-Verteilungen oder t-Tests vorhanden.

Für Konfidenzintervalle beruht es immer auf einer normalen Näherung, obwohl es die Agresti-Coull-Methode verwendet, die ziemlich gut funktioniert.

Steve
quelle