A / B-Tests: Z-Test vs. T-Test vs. Chi-Quadrat vs. Fisher-Exakter Test

38

Ich versuche, die Argumentation zu verstehen, indem ich bei einem einfachen A / B-Test einen bestimmten Testansatz wähle (dh zwei Variationen / Gruppen mit einer binären Antwort (konvertiert oder nicht)). Als Beispiel verwende ich die folgenden Daten

Version  Visits  Conversions
A        2069     188
B        1826     220

Die beste Antwort hier ist großartig und spricht über einige der zugrunde liegenden Annahmen für z-, t- und Chi-Quadrat-Tests. Was ich jedoch verwirrend finde, ist, dass verschiedene Online-Ressourcen unterschiedliche Ansätze zitieren und Sie denken, dass die Annahmen für einen grundlegenden A / B-Test ziemlich gleich sein sollten?

  1. In diesem Artikel wird beispielsweise Z-Score verwendet :Bildbeschreibung hier eingeben
  2. In diesem Artikel wird die folgende Formel verwendet (bei der ich nicht sicher bin, ob sie von der Zscore-Berechnung abweicht):

Bildbeschreibung hier eingeben

  1. Dieser Artikel bezieht sich auf den t-Test (S. 152):

Bildbeschreibung hier eingeben

Welche Argumente können für diese unterschiedlichen Ansätze gemacht werden? Warum sollte man eine Präferenz haben?

Um einen weiteren Kandidaten einzuwerfen, kann die obige Tabelle in eine 2x2-Kontingenztabelle umgeschrieben werden, in der der exakte Fisher-Test (S. 5) verwendet werden kann

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Der genaue Test nach diesem Faden sollte jedoch nur bei kleineren Stichproben verwendet werden (wie hoch ist der Cut-Off?)

Und dann gibt es gepaarte t- und z-Tests, f-Tests (und logistische Regression, aber ich möchte das vorerst auslassen) Argumentieren Sie die verschiedenen Methoden in diesem einfachen A / B-Testfall.

Anhand der Beispieldaten erhalte ich die folgenden p-Werte

  1. https://vwo.com/ab-split-test-significance-calculator/ ergibt einen p-Wert von 0,001 (Z-Score)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (mit Chi-Quadrat-Test) ergibt einen p-Wert von 0,00259

  3. Und in R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valueergibt sich ein p-Wert von 0,002785305

Was ich denke, sind alle ziemlich nah ...

Wie auch immer - ich hoffe nur auf eine gesunde Diskussion darüber, welche Ansätze für Online-Tests verwendet werden können, bei denen die Stichprobengröße normalerweise in der Größenordnung von Tausenden liegt und die Antwortquoten oft 10% oder weniger betragen. Mein Bauch sagt mir, dass ich Chi-Quadrat verwenden soll, aber ich möchte in der Lage sein, genau zu antworten, warum ich es anstelle der anderen Möglichkeiten auswähle, es zu tun.

L Xandor
quelle
In Bezug auf und Tests wird Ihre Frage bereits hier beantwortet: stats.stackexchange.com/questions/85804/…tzt
Tim
Ich fand diese Demonstration ziemlich hilfreich. Dies zeigt, dass der z-Test für Proportionen im Wesentlichen dem Chi-Quadrat-Test für die Homogenität in der 2x2-Kontingenztabelle entspricht. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Antworten:

24

Wir verwenden diese Tests aus verschiedenen Gründen und unter verschiedenen Umständen.

  1. z z zz Test. Ein Test setzt voraus, dass unsere Beobachtungen unabhängig von einer Normalverteilung mit unbekanntem Mittelwert und bekannter Varianz erstellt werden. Ein Test wird hauptsächlich verwendet, wenn quantitative Daten vorliegen. (dh Gewichte von Nagetieren, Alter von Individuen, systolischer Blutdruck usw.) Bei Interesse an Proportionen können jedoch auch Tests verwendet werden. (dh der Anteil der Menschen, die mindestens acht Stunden Schlaf haben usw.)zzz

  2. t t t zt Test. Ein Test setzt voraus, dass unsere Beobachtungen unabhängig von einer Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz erstellt werden. Beachten Sie, dass wir mit einem Test die Populationsvarianz nicht kennen. Dies ist weitaus häufiger, als die Populationsvarianz zu kennen. Daher ist ein Test im Allgemeinen besser geeignet als ein Test. Bei großen Stichproben wird es jedoch praktisch kaum Unterschiede zwischen den beiden geben.tttz

Bei und Tests lautet Ihre alternative Hypothese, dass Ihr Bevölkerungsmittelwert (oder Bevölkerungsanteil) einer Gruppe entweder nicht gleich, kleiner oder größer als der Bevölkerungsmittelwert (oder der Bevölkerungsanteil) der anderen Gruppe ist. Dies hängt von der Art der Analyse ab, die Sie durchführen möchten, aber Ihre Null- und Alternativhypothesen vergleichen direkt die Mittelwerte / Proportionen aus den beiden Gruppen.tzt

  1. Chi-Quadrat-Test. Während sich und Tests auf quantitative Daten (oder Anteile im Fall von ) beziehen, sind Chi-Quadrat-Tests für qualitative Daten geeignet. Auch hier wird davon ausgegangen, dass Beobachtungen unabhängig voneinander sind. In diesem Fall suchen Sie keine bestimmte Beziehung. Ihre Nullhypothese lautet, dass zwischen Variable eins und Variable zwei keine Beziehung besteht. Ihre alternative Hypothese ist, dass eine Beziehung existiert. Dies gibt Ihnen keine Einzelheiten darüber, wie diese Beziehung besteht (dh in welche Richtung geht die Beziehung?), Liefert jedoch den Beweis, dass eine Beziehung zwischen Ihrer unabhängigen Variablen und Ihren Gruppen besteht (oder nicht existiert).t zztz

  2. Fisher's genauer Test. Ein Nachteil des Chi-Quadrat-Tests ist, dass er asymptotisch ist. Dies bedeutet, dass der Wert für sehr große Probengrößen genau ist. Wenn Ihre Stichprobengröße jedoch klein ist, ist der Wert möglicherweise nicht ganz genau. Mit dem genauen Test von Fisher können Sie den Wert Ihrer Daten genau berechnen und sind nicht auf Näherungswerte angewiesen, die bei kleinen Stichprobengrößen schlecht sind.p pppp

Ich diskutiere immer wieder über Stichprobengrößen - verschiedene Referenzen geben Ihnen unterschiedliche Maßstäbe, wann Ihre Stichproben groß genug sind. Ich würde nur eine seriöse Quelle finden, ihre Regel betrachten und ihre Regel anwenden, um den gewünschten Test zu finden. Ich würde sozusagen nicht "einkaufen", bis Sie eine Regel finden, die Sie "mögen".

Letztendlich sollte der Test, den Sie auswählen, auf a) Ihrer Stichprobengröße und b) der Form basieren, in der Ihre Hypothesen aussehen sollen. Wenn Sie für einen bestimmten Effekt von Ihrem A / B - Test suchen (zum Beispiel hat meine B - Gruppe höhere Testergebnisse), dann würde ich für ein entscheiden -Test oder -Test, bis Probengröße und das Wissen der Bevölkerung Varianz. Wenn Sie zeigen möchten, dass lediglich eine Beziehung besteht (z. B. meine A- und B-Gruppe unterscheiden sich aufgrund der unabhängigen Variablen, es ist mir jedoch egal, welche Gruppe höhere Werte aufweist), ist der Chi-Quadrat-Test oder der exakte Fisher-Test der richtige angemessen, je nach Stichprobengröße.tzt

Macht das Sinn? Hoffe das hilft!

Matt Brems
quelle
Danke für die ausführliche Antwort! Ich werde es im Detail durchgehen - ich bin sicher, ich werde ein paar Fragen haben!
L Xandor
Können Sie näher erläutern, warum der Chi-Quadrat- und der Fisher-Test nicht die Richtung eines Effekts angeben? Wenn alle Inferenzstatistiktests ein Konfidenzniveau dafür liefern, ob zwei Stichprobensätze aus verschiedenen Populationen oder aus derselben Population stammen, lässt sich mit der mathematischen Theorie nicht sagen, dass der Richtungsunterschied der Mittelwerte gelten würde (Gruppe B) hat höhere Punktzahl)?
Chris F
Der Klarheit halber machen der Chi-Quadrat-Test und der exakte Fisher-Test dasselbe, aber der p-Wert wird etwas anders berechnet. (Es ist eine Näherung unter Chi-Quadrat und eine genaue Berechnung unter Fisher's Exact.) Ich werde Chi-Quadrat ansprechen und es wird auf Fisher's verallgemeinern. Hier geht es um die Prämisse. "Wenn alle Inferenzstatistik-Tests ein Konfidenzniveau darüber liefern, ob zwei Stichproben entnommen wurden ..." - so funktioniert der Chi-Quadrat-Test nicht. Die Nullhypothese für den Chi-Quadrat-Test ist, dass es keine Assoziation gibt und die alternative Hypothese ...
Matt Brems
... besteht eine gewisse Assoziation zwischen den beiden kategorialen Variablen. Sie prüfen lediglich, ob eine Assoziation besteht, und geben keine bestimmte Richtung vor. (Es gibt einige weniger bekannte Statistiken, in denen eine bestimmte Beziehung angegeben ist. Dies ist jedoch nicht die Aufgabe des Chi-Quadrat-Tests.) Um später zu schließen, dass eine bestimmte Richtungsbeziehung vorliegt, die darauf basiert Ein p-Wert, der unter einer anderen Menge von Hypothesen berechnet wurde, um nur die Existenz einer Assoziation zu testen, wäre ein Fehler.
Matt Brems
H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ