Warum ist es eine „schlechte Sache“, Split-Tests durchzuführen, bis sie statistisch signifikant sind? (Oder ist es?)

Es ist das "beste zwei von drei" Phänomen. Sie kennen den Witz:

"Lass uns danach drehen."

"OK, geh!"

"Ups, ich habe verloren. Wie wäre es, wenn du noch zweimal flippst, wobei der Gewinner der beste der drei Gesamtzeiten ist?"

Signifikanztests sind genau wie Münzwurf (normalerweise jedoch mit voreingenommenen Münzen). Wenn Sie einen kurzen Test durchführen und dieser nicht signifikant ist, können Sie möglicherweise eine Signifikanz (teilweise durch Glück) erreichen, indem Sie den Test verlängern.

Das Gegenteil davon (ich bin versucht, die "Kehrseite" davon zu sagen :-)) ist, dass wenn Sie vorhaben , eine bestimmte Anzahl von Tests durchzuführen und zufällig ein "signifikantes" Ergebnis zu sehen, dies auch nicht dispositiv ist. Es ist analog zur Umkehrung unseres ersten Wettbewerbs:

"Lass es uns versuchen. Beste zwei von drei?"

"OK, geh!"

"Ha, ich habe den ersten Flip gewonnen, also gewinne ich!"

Beachten Sie jedoch, dass es Testversionen gibt, mit denen Sie die (nominelle) Bedeutung im Laufe der Zeit überwachen können. Diese funktionieren so, als würde man einen Wettbewerb vorzeitig beenden, wenn er zu einseitig wird, sogenannte Gnadenregeln . Wenn sich frühzeitig herausstellt, dass ein Unterschied real ist, können Sie Zeit und Mühe sparen, indem Sie die Tests beenden. Diese werden als sequentielle Hypothesentestverfahren bezeichnet . Es könnte ein guter Fall sein, dass dies Ihre Standardmethode für die Durchführung von AB-Tests sein sollte, da Sie auf lange Sicht insgesamt weniger Zeit und Mühe aufwenden werden.

whuber
quelle

Warum ist es eine „schlechte Sache“, Split-Tests durchzuführen, bis sie statistisch signifikant sind? (Oder ist es?)

Antworten: