Ich versuche, die Argumentation zu verstehen, indem ich bei einem einfachen A / B-Test einen bestimmten Testansatz wähle (dh zwei Variationen / Gruppen mit einer binären Antwort (konvertiert oder nicht)). Als Beispiel verwende ich die folgenden Daten
Version Visits Conversions
A 2069 188
B 1826 220
Die beste Antwort hier ist großartig und spricht über einige der zugrunde liegenden Annahmen für z-, t- und Chi-Quadrat-Tests. Was ich jedoch verwirrend finde, ist, dass verschiedene Online-Ressourcen unterschiedliche Ansätze zitieren und Sie denken, dass die Annahmen für einen grundlegenden A / B-Test ziemlich gleich sein sollten?
- In diesem Artikel wird beispielsweise Z-Score verwendet :
- In diesem Artikel wird die folgende Formel verwendet (bei der ich nicht sicher bin, ob sie von der Zscore-Berechnung abweicht):
- Dieser Artikel bezieht sich auf den t-Test (S. 152):
Welche Argumente können für diese unterschiedlichen Ansätze gemacht werden? Warum sollte man eine Präferenz haben?
Um einen weiteren Kandidaten einzuwerfen, kann die obige Tabelle in eine 2x2-Kontingenztabelle umgeschrieben werden, in der der exakte Fisher-Test (S. 5) verwendet werden kann
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Der genaue Test nach diesem Faden sollte jedoch nur bei kleineren Stichproben verwendet werden (wie hoch ist der Cut-Off?)
Und dann gibt es gepaarte t- und z-Tests, f-Tests (und logistische Regression, aber ich möchte das vorerst auslassen) Argumentieren Sie die verschiedenen Methoden in diesem einfachen A / B-Testfall.
Anhand der Beispieldaten erhalte ich die folgenden p-Werte
https://vwo.com/ab-split-test-significance-calculator/ ergibt einen p-Wert von 0,001 (Z-Score)
http://www.evanmiller.org/ab-testing/chi-squared.html (mit Chi-Quadrat-Test) ergibt einen p-Wert von 0,00259
Und in R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
ergibt sich ein p-Wert von 0,002785305
Was ich denke, sind alle ziemlich nah ...
Wie auch immer - ich hoffe nur auf eine gesunde Diskussion darüber, welche Ansätze für Online-Tests verwendet werden können, bei denen die Stichprobengröße normalerweise in der Größenordnung von Tausenden liegt und die Antwortquoten oft 10% oder weniger betragen. Mein Bauch sagt mir, dass ich Chi-Quadrat verwenden soll, aber ich möchte in der Lage sein, genau zu antworten, warum ich es anstelle der anderen Möglichkeiten auswähle, es zu tun.
Antworten:
Wir verwenden diese Tests aus verschiedenen Gründen und unter verschiedenen Umständen.
z z zz Test. Ein Test setzt voraus, dass unsere Beobachtungen unabhängig von einer Normalverteilung mit unbekanntem Mittelwert und bekannter Varianz erstellt werden. Ein Test wird hauptsächlich verwendet, wenn quantitative Daten vorliegen. (dh Gewichte von Nagetieren, Alter von Individuen, systolischer Blutdruck usw.) Bei Interesse an Proportionen können jedoch auch Tests verwendet werden. (dh der Anteil der Menschen, die mindestens acht Stunden Schlaf haben usw.)z z z
t t t zt Test. Ein Test setzt voraus, dass unsere Beobachtungen unabhängig von einer Normalverteilung mit unbekanntem Mittelwert und unbekannter Varianz erstellt werden. Beachten Sie, dass wir mit einem Test die Populationsvarianz nicht kennen. Dies ist weitaus häufiger, als die Populationsvarianz zu kennen. Daher ist ein Test im Allgemeinen besser geeignet als ein Test. Bei großen Stichproben wird es jedoch praktisch kaum Unterschiede zwischen den beiden geben.t t t z
Bei und Tests lautet Ihre alternative Hypothese, dass Ihr Bevölkerungsmittelwert (oder Bevölkerungsanteil) einer Gruppe entweder nicht gleich, kleiner oder größer als der Bevölkerungsmittelwert (oder der Bevölkerungsanteil) der anderen Gruppe ist. Dies hängt von der Art der Analyse ab, die Sie durchführen möchten, aber Ihre Null- und Alternativhypothesen vergleichen direkt die Mittelwerte / Proportionen aus den beiden Gruppen.tz t
Chi-Quadrat-Test. Während sich und Tests auf quantitative Daten (oder Anteile im Fall von ) beziehen, sind Chi-Quadrat-Tests für qualitative Daten geeignet. Auch hier wird davon ausgegangen, dass Beobachtungen unabhängig voneinander sind. In diesem Fall suchen Sie keine bestimmte Beziehung. Ihre Nullhypothese lautet, dass zwischen Variable eins und Variable zwei keine Beziehung besteht. Ihre alternative Hypothese ist, dass eine Beziehung existiert. Dies gibt Ihnen keine Einzelheiten darüber, wie diese Beziehung besteht (dh in welche Richtung geht die Beziehung?), Liefert jedoch den Beweis, dass eine Beziehung zwischen Ihrer unabhängigen Variablen und Ihren Gruppen besteht (oder nicht existiert).t zz t z
Fisher's genauer Test. Ein Nachteil des Chi-Quadrat-Tests ist, dass er asymptotisch ist. Dies bedeutet, dass der Wert für sehr große Probengrößen genau ist. Wenn Ihre Stichprobengröße jedoch klein ist, ist der Wert möglicherweise nicht ganz genau. Mit dem genauen Test von Fisher können Sie den Wert Ihrer Daten genau berechnen und sind nicht auf Näherungswerte angewiesen, die bei kleinen Stichprobengrößen schlecht sind.p pp p p
Ich diskutiere immer wieder über Stichprobengrößen - verschiedene Referenzen geben Ihnen unterschiedliche Maßstäbe, wann Ihre Stichproben groß genug sind. Ich würde nur eine seriöse Quelle finden, ihre Regel betrachten und ihre Regel anwenden, um den gewünschten Test zu finden. Ich würde sozusagen nicht "einkaufen", bis Sie eine Regel finden, die Sie "mögen".
Letztendlich sollte der Test, den Sie auswählen, auf a) Ihrer Stichprobengröße und b) der Form basieren, in der Ihre Hypothesen aussehen sollen. Wenn Sie für einen bestimmten Effekt von Ihrem A / B - Test suchen (zum Beispiel hat meine B - Gruppe höhere Testergebnisse), dann würde ich für ein entscheiden -Test oder -Test, bis Probengröße und das Wissen der Bevölkerung Varianz. Wenn Sie zeigen möchten, dass lediglich eine Beziehung besteht (z. B. meine A- und B-Gruppe unterscheiden sich aufgrund der unabhängigen Variablen, es ist mir jedoch egal, welche Gruppe höhere Werte aufweist), ist der Chi-Quadrat-Test oder der exakte Fisher-Test der richtige angemessen, je nach Stichprobengröße.tz t
Macht das Sinn? Hoffe das hilft!
quelle
Für einen 3-Wege-Test verwenden Sie normalerweise eine ANOVA anstelle von 3 separaten Tests. Bitte überprüfen Sie auch die Bonferroni-Korrektur, bevor Sie mehrere Tests durchführen. Verwenden Sie diese https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=chrome
quelle