Ich bin dafür verantwortlich, die Ergebnisse von A / B-Tests (die auf Website-Variationen ausgeführt werden) in meinem Unternehmen zu präsentieren. Wir führen den Test einen Monat lang durch und überprüfen dann die p-Werte in regelmäßigen Abständen, bis wir die Signifikanz erreichen (oder geben auf, wenn die Signifikanz nach längerer Durchführung des Tests nicht erreicht wird). Ich finde jetzt heraus, dass dies eine falsche Praxis ist .
Ich möchte diese Praxis jetzt beenden, aber um dies zu tun, möchte ich verstehen, WARUM dies falsch ist. Ich verstehe, dass die Effektgröße, die Stichprobengröße (N), das Alpha-Signifikanzkriterium (α) und die statistische Leistung oder das gewählte oder implizierte Beta (β) mathematisch zusammenhängen. Aber was genau ändert sich, wenn wir unseren Test beenden, bevor wir die erforderliche Stichprobengröße erreichen?
Ich habe hier einige Beiträge gelesen (nämlich dies , dies und das ), und sie sagen mir, dass meine Schätzungen voreingenommen wären und die Rate meines Typ-1-Fehlers dramatisch ansteigt. Aber wie passiert das? Ich suche nach einer mathematischen Erklärung , die die Auswirkungen der Stichprobengröße auf die Ergebnisse deutlich macht. Ich denke, es hat etwas mit den Beziehungen zwischen den oben genannten Faktoren zu tun, aber ich konnte die genauen Formeln nicht herausfinden und sie selbst herausarbeiten.
Zum Beispiel erhöht ein vorzeitiges Stoppen des Tests die Fehlerrate von Typ 1. In Ordung. Aber wieso? Was passiert, um die Fehlerrate von Typ 1 zu erhöhen? Mir fehlt hier die Intuition.
Hilfe bitte.
Antworten:
A / B-Tests, die einfach wiederholt dieselben Daten mit einem festen Typ-1-Fehler ( ) testen, sind grundlegend fehlerhaft. Dafür gibt es mindestens zwei Gründe. Zunächst werden die wiederholten Tests korreliert, die Tests werden jedoch unabhängig voneinander durchgeführt. Zweitens berücksichtigt das feste α nicht die mehrfach durchgeführten Tests, die zu einer Typ-1-Fehlerinflation führen.α α
Um die erste zu sehen, nehmen Sie an, dass Sie bei jeder neuen Beobachtung einen neuen Test durchführen. Es ist klar, dass zwei nachfolgende p-Werte korreliert werden, da sich Fälle zwischen den beiden Tests nicht geändert haben. Folglich sehen wir in @ Bernhards Diagramm einen Trend, der diese Korrelation von p-Werten zeigt.n−1
Um das zweite zu sehen, stellen wir fest, dass selbst wenn Tests unabhängig sind, die Wahrscheinlichkeit, einen p-Wert unter zu haben, mit der Anzahl der Tests t P ( A ) = 1 - ( 1 - α ) t zunimmt , wobei A das Ereignis von ist eine fälschlicherweise abgelehnte Nullhypothese. Die Wahrscheinlichkeit, mindestens ein positives Testergebnis zu haben, geht also gegen 1α t
Da in dieser Situation sowohl die Korreliertheit als auch der Mehrfachtest gleichzeitig gelten, hängt der p-Wert des Tests vom p-Wert von t ab . Wenn Sie also endlich ein p < α erreichen , bleiben Sie wahrscheinlich eine Weile in dieser Region. Sie können dies auch in @ Bernhards Grundstück in der Region von 2500 bis 3500 und 4000 bis 5000 sehen.t+1 t p<α
Die wohl bekannteste Einstellung (aufgrund ihrer Einfachheit) ist Bonferroni. Hier setzen wir
Wie wir sehen können, ist die Anpassung sehr effektiv und zeigt, wie radikal wir den p-Wert ändern müssen, um die familienbezogene Fehlerrate zu steuern. Insbesondere finden wir jetzt keinen signifikanten Test mehr, wie es sein sollte, weil die Nullhypothese von @ Berhard wahr ist.
Hier ist der Code:
quelle
Wenn die Nullhypothese wahr ist, erwarten die Leute oft, dass der p-Wert sehr hoch ist. Das ist nicht wahr. Wenn die Nullhypothese wahr ist, ist p eine gleichmäßig verteilte Zufallsvariable. Das bedeutet, dass von Zeit zu Zeit nur zufällig unter 0,05 liegt. Wenn Sie sich viele verschiedene Unterproben ansehen, liegt der p-Wert manchmal unter 0,05.
Um dies leichter verständlich zu machen, finden Sie hier eine kleine Simulation in
R
:Dies wird 10.000 Mal eine Münze werfen und wir wissen, es ist eine faire Münze:
Ab dem 5. Wurf wird nach jedem Wurf ein Binomialtest auf Fairness durchgeführt und die p-Werte gespeichert:
Und dies wird die p-Werte nacheinander darstellen:
(Um vollkommen offen zu sein, habe ich mehr als einen Startwert für den Zahlengenerator ausprobiert, bevor dies so klar war wie in diesem Beispiel, aber das ist für Bildungszwecke fair. Wenn Sie
R
installiert haben und ausgeführt werden, können Sie problemlos mit den Zahlen spielen .)quelle