Clustering und A / B-Tests

8

Meine Frage lautet wie folgt: Stellen wir uns vor, ich habe Cluster in meinen Daten definiert (verschiedene Kundensegmente) und führe einen A / B-Test durch. Kann ich die Leistungen der verschiedenen Cluster beim A / B-Test vergleichen? Ich habe nicht viel Literatur darauf gefunden (tatsächlich fast keine), also habe ich mich gefragt, ob es einen statistischen Grund gibt, es nicht zu tun?

Hier ist eine detaillierte Erklärung des Problems:

Stellen wir uns vor, ich führe einen A / B-Test durch. Es stellt sich heraus, dass weder A noch B statistisch signifikant besser sind als die anderen. Trotzdem wäre es großartig, daraus Erkenntnisse abzuleiten. Vielleicht bevorzugt eine Teilmenge der Bevölkerung die neue Version B und eine andere Teilmenge die Version A. Angenommen, ich habe bereits Cluster unter meinen Kunden ermittelt. Ich würde gerne sehen, wie diese Cluster vom A / B-Test betroffen waren. Beispielsweise konvertieren Personen unter 20 Jahren (Cluster A) 10% mehr in Version B und Personen über 50 (Cluster B) konvertieren 10% weniger. Dann gibt uns unser A / B-Test, der zuvor besagte, dass die Änderung keine statistisch signifikante Änderung brachte, mehr Einblicke. Wir können versuchen zu verstehen, warum die Version B eher für jüngere und weniger für ältere Menschen geeignet ist. Wir haben einige Erkenntnisse aus unserem Test gewonnen.

Wenn Sie dies so tun, werden Sie natürlich sehr wahrscheinlich Cluster finden, die eine bessere (oder schlechtere) Leistung als andere erzielen. Sie müssten also einen weiteren A / B-Test für einen bestimmten Cluster durchführen, um Ihre Hypothese zu überprüfen.

Ich habe keine anderen Leute gefunden, die das tun. Gibt es einen statistischen Grund, dies nicht zu tun, oder ist es ein legitimer Weg, um Erkenntnisse zu gewinnen?

Vielen Dank !

Pholochtairze
quelle

Antworten:

4

Auf jeden Fall können Sie die verschiedenen Cluster vergleichen, obwohl es wichtig ist, dass Sie sorgfältig überlegen, was Sie aus der statistischen Signifikanz ableiten. Obwohl es sich in der Tat um einen sehr guten Indikator handelt, bedeutet ein Schwellenwert von naturgemäß , dass Tests zu einem falsch positiven Ergebnis führen, so dass viele Ingenieure und Wissenschaftler ausrufen müssen, dass ein Effekt vorliegt, wenn dies möglicherweise nicht der Fall ist. Auch wenn der Test ergibt, würden Sie sofort schließen, dass dort keine Beziehung besteht?p<0,051/.20p=0,055

Diese Frage berührt das Problem mehrerer Vergleiche: Je mehr Tests Sie anwenden, desto wahrscheinlicher ist es, dass Sie etwas statistisch Signifikantes finden. Es gibt einfache Korrekturen wie Bonferroni, die den Schwellenwert im Wesentlichen auf reduzieren, obwohl dies mit Vorsicht angewendet werden muss, da es sich um eine ziemlich aggressive Korrektur handelt.p<0,05/.ntests

Es schadet also nicht, Ihre Daten auf verschiedene Arten zu betrachten, um daraus Erkenntnisse zu gewinnen. Ich würde sie sogar ermutigen. Der beste Rat , den ich geben könnte , ist zu sehen auf Ihren Daten, zeichnet es aus, Blick auf den Distributionen, wie viele Datenpunkte haben Sie, sind sie normal oder nicht-parametrisch oder verzerrt. Machen Sie sich ein Bild davon, was los ist, anstatt sich nur auf statistische Tests zu verlassen. Wenn Sie eine Ahnung haben und der p-Wert im richtigen Ballpark angezeigt wird, sammeln Sie weitere Daten und prüfen Sie, ob dies Ihre Theorie bestätigt.

CatsLoveJazz
quelle
1
Ich habe oft einen ähnlichen Ansatz gewählt. Nach dem A / B-Test einer neuen Funktion kann man Hypothesen erstellen, um sie mit einem anderen Experiment zu testen oder um herauszufinden, warum einige Dinge passiert sind. Ich erwähne einen weiteren zusätzlichen Wert für das Testen: das Debuggen. Sie können auch Fehler bei der Implementierung einer neuen Funktion finden, indem Sie in einigen Segmenten unerwartet signifikante Tests feststellen.
Rapaio