Validieren Sie Web-A / B-Tests, indem Sie ein Experiment erneut ausführen. Ist dies gültig?

11

In einem Webinar eines A / B-Testunternehmens wurde der ansässige "Data Scientist" erklärt, dass Sie Ihre Ergebnisse validieren sollten, indem Sie das Experiment erneut ausführen. Die Prämisse war, dass bei Auswahl von 95% Konfidenz eine Wahrscheinlichkeit von 5% (1/20) für ein falsches Positiv besteht. Wenn Sie Ihr Experiment mit denselben Einschränkungen erneut ausführen, gibt es jetzt 1/400 (ich gehe davon aus, dass dies 0,05 ^ 2 = 1/400 ist).

Ist das eine gültige Aussage? (dh "zweimal laufen, zwei statistische Signifikanz gewinnt = 1/400 Wahrscheinlichkeit eines falsch positiven")? Wäre es ein besserer Ansatz gewesen, Ihr Signifikanzniveau zu erhöhen?

Aus geschäftlicher Sicht besteht mein Anliegen darin, dass Sie durch erneutes Ausführen des Experiments mehr Benutzer einer minderwertigen Seite (Behandlung) aussetzen und somit potenzielle Verkäufe verlieren.

John
quelle
2
Hallo John, willkommen bei Stats.SE! Wenn Sie mit einer der Antworten zufrieden sind, sollten Sie eine davon akzeptieren oder klarere Fragen zu dem stellen, wonach Sie suchen.
Christopher Aden
John, ich vermute, das eigentliche Problem betrifft den Kontext. Es kommt selten vor, dass Menschen Ressourcen dafür verwenden, jeweils nur eines zu lernen: Sie möchten aus gutem Grund das Beste aus ihren Daten herausholen. Das bedeutet, dass jeder Datensatz für mehrere Tests verwendet wird. Darüber hinaus sind die Tests manchmal post hoc : Sie wurden von Mustern inspiriert, die in den Daten zu sehen sind. In solchen Fällen haben die Tests nicht das gewünschte Vertrauen von 95% (oder was auch immer), und eine Replikation ist wesentlich. Also: was genau meinst du mit "experimentieren"? Die Antwort hängt von diesem kleinen Detail ab!
whuber
Informationen zu Versuchswiederholungen und Signifikanzwerten finden Sie in diesem XKCD-Comic: xkcd.com/882. Lesen Sie nach dem Lesen den obigen Kommentar.
Lucas Gallindo
whuber: Entschuldigung für den Mangel an Details, ich beziehe mich auf die Website-Optimierung. Ein Beispielexperiment wäre das Testen von zwei Versionen meiner Homepage mit einer 50/50-Aufteilung der Benutzer auf jede.
John

Antworten:

3

Wenn ich die Wahrscheinlichkeiten eines falschen Positivs für den Moment ignoriere, würde ich es so betrachten:

  1. Wenn Sie das Experiment zweimal ausführen und das gleiche Ergebnis erzielen, wissen Sie nicht, ob zwei wahr-positive Ergebnisse oder zwei falsch-positive Ergebnisse hintereinander vorliegen.
  2. Wenn Sie das Experiment zweimal ausführen und zwei unterschiedliche Ergebnisse erhalten, wissen Sie nicht, welches das wahre positive und welches das falsch positive Ergebnis ist.

In beiden Fällen sollten Sie dann ein drittes Experiment durchführen, um sicherzugehen. Dies ist möglicherweise in Ordnung für Experimente, die relativ kostengünstig sind, aber bei potenziell hohen Kosten (z. B. Kundenverlust) müssen Sie den Nutzen wirklich berücksichtigen.

Wenn Sie sich die Wahrscheinlichkeiten ansehen, besteht beim ersten Ausführen des Experiments eine Wahrscheinlichkeit von 1/20 für ein falsches Positiv. Wenn Sie das Experiment zum zweiten Mal ausführen, besteht immer noch eine 1/20 Chance auf ein falsches Positiv (stellen Sie sich vor, Sie würfeln mit einem Würfel, bei dem jeder Wurf eine 1/6 Chance hat, eine bestimmte Zahl zu erhalten). Es besteht nur eine Wahrscheinlichkeit von 1/400, dass zwei Fehlalarme hintereinander auftreten.

Das eigentliche Problem besteht darin, eine genau definierte Hypothese mit strengen Verfahren zu haben und eine Stichprobengröße, einen Fehlergrad und ein Konfidenzintervall zu haben, mit denen Sie leben oder die Sie sich leisten können. Die Wiederholung des Experiments sollte der Erforschung überlassen bleiben

  1. Kunden im Laufe der Zeit
  2. von der Organisation vorgenommene Änderungen
  3. Änderungen durch den Wettbewerb

eher als zweite Vermutungsergebnisse. Obwohl es leichter gesagt als getan ist, dies den Managern zu erklären.

mjc
quelle
mjc, vielen dank für den kommentar - genau das habe ich gesucht.
John
2

Ja, diese Aussage ist richtig, vorausgesetzt, Ihr Experiment ist ideal. Aber ein ideales Experiment zu bekommen ist viel schwieriger, als dieses Gefühl Glaubwürdigkeit verleiht. Daten aus der "realen Welt" sind chaotisch, kompliziert und in erster Linie schwer zu interpretieren. Es gibt enormen Raum für fehlerhafte Analysen, versteckte Variablen (es gibt sehr selten "dieselben Einschränkungen") oder Missverständnisse zwischen einem Datenwissenschaftler, der seine Arbeit erledigt, und einem Markierungsmanager, der seine Arbeit erledigt.

Aus geschäftlicher Sicht eine gute Methodik sicherstellen und nicht zu zuversichtlich in den Ergebnissen sein; Eine schwierigere Herausforderung als Sie vielleicht denken. Sobald Sie diese erledigt haben, arbeiten Sie an diesen 5%.

Eric Chiang
quelle
Danke, das beantwortet die erste Frage. Was ist mit der zweiten Frage: "Wäre es ein besserer Ansatz gewesen, Ihr Signifikanzniveau zu erhöhen?" Wenn ich nur eine schnelle Simulation in R mache (gleiche Effektgröße und Leistung beibehalten, nur den Signifikanzwert ändern), könnte ich ~ 4,8% weniger Daten sammeln, indem ich einfach 97,5% Signifikanz wähle, anstatt 2X-Experimente mit 95% Signifikanz durchzuführen. Ich sollte klarstellen - wenn ich frage "Wäre es besser gewesen ...", meine ich, könnte ich das gleiche Endergebnis erzielen, indem ich weniger Daten sammle.
John