Hintergrund:
Meine Software bittet Benutzer um optionale Spenden in beliebiger Höhe. Ich habe Testspendenanfragen unter den Benutzern aufgeteilt, um den besten Weg zu finden, um zu fragen: 50% erhalten Anforderungsversion 1, 50% erhalten Anforderungsversion 2, und wir sehen, welche besser ist.
Fast alle Benutzer geben 0 US-Dollar, aber einige spenden. Die Ergebnisse könnten folgendermaßen aussehen:
Number of users Number of donations Dollar amounts donated
GROUP A 10,000 10 40,20,20,20,15,10,10,5,5,5
GROUP B 10,000 15 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5
Ich möchte wissen, ob eine Gruppe ein Gewinner ist oder ob es ein Unentschieden ist oder ob wir eine größere Stichprobe benötigen, um sicherzugehen. (Dieses zur Diskussion einfach gehaltene Beispiel benötigt mit ziemlicher Sicherheit eine größere Stichprobe, um signifikante Ergebnisse zu erzielen.)
Was ich schon messe:
- Hatte eine Gruppe eine signifikant größere Anzahl von Spenden? Wie viel größer? Ich messe diesen p-Wert und das Konfidenzintervall mit dem ABBA Thumbtack-Tool , wobei ich nur die Anzahl der Spenden und die Anzahl der Benutzer verwende und Dollarbeträge ignoriere. Die Methodik ist in "Was sind die zugrunde liegenden Statistiken?" Beschrieben. Abschnitt dieses Links. (Es geht mir über den Kopf, aber ich glaube, es berechnet das Konfidenzintervall, indem die Differenz zwischen den Spendenraten als normale Zufallsvariablen für das Agresti-Couli-Intervall verwendet wird.)
- Hat eine Gruppe einen signifikant anderen Gesamtbetrag gespendet ? Ich messe diesen p-Wert, indem ich einen Permutationstest durchführe: wiederholtes Ummischen aller 2N-Probanden in 2 N-Probandengruppen, Messen der Differenz des Gesamtgeldes zwischen den Gruppen jedes Mal und Ermitteln des Anteils der Shuffles mit einer Differenz> = der beobachteten Unterschied. (Ich glaube, dies ist gültig, basierend auf diesem Video der Khan Academy , das dasselbe für Cracker anstelle von Dollars tut.)
Rs wilcox.test:
Ein paar Fragen zu wilcox.test()
R:
- Wenn ich
wilcox.test(paired=FALSE)
die obige Datentabelle füttere, würde sie neue Fragen beantworten, die von meinen oben genannten Tools noch nicht beantwortet wurden, und mir mehr Einblicke geben, mit denen ich entscheiden kann, ob ich meinen Test fortsetzen / einen Gewinner erklären / ein Unentschieden erklären soll? - Wenn ja, welche genaue Frage würde es beantworten?
quelle
Antworten:
Wenn SieU . Dies ist ein Test der stochastischen Dominanz . Wenn die Verteilungen gleich wären und Sie eine Beobachtung aus jeder Version zufällig ausgewählt hätten, hätte die Beobachtung aus Version 2 eine 50% -50% ige Chance, höher zu sein als die Beobachtung aus Version 1. Andererseits wird der Wert aus gezogen Version 2 hat möglicherweise eine Wahrscheinlichkeit von mehr als 50%, größer als (kleiner als) der Wert aus Version 1 zu sein. Dies ist eine stochastische Dominanz. Es wird nichts darüber gesagt, wie viel größer oder kleiner ist, nur dass es größer oder kleiner ist.
wilcox.test()
das Argument verwendenpaired
(beachten Sie, dass dies Kleinbuchstaben sind und dieR
Groß- und Kleinschreibung beachtet wird )FALSE
, führen Sie einen Mann-Whitney- Test ausDas passt mir nicht gut zu Ihren Zielen. Sie möchten das meiste Geld, das als die größte mittlere Spende multipliziert mit der Anzahl der Benutzer verstanden werden kann. Aufgrund von Versatz ist es möglich, dass eine Version den größten Mittelwert / die größte Summe haben kann, die andere Version jedoch stochastisch größer ist. (Wenn dies der Fall wäre, würden Sie die frühere Version wollen.) Da dies letztendlich das ist, was Sie wollen, ist ein Test, der für diesen Aspekt der Distributionen spezifisch ist, für Sie am besten geeignet.
Ich erkenne, dass Ihre Daten nicht im entferntesten normal sind, und daher wäre der Test (an den die meisten Leute beim Vergleich zweier Gruppen zuerst denken würden) unangemessen. Bei zwei kontinuierlichen, aber nicht normalen Gruppen könnten die meisten Menschen ebenfalls automatisch mit dem Mann-Whitney gehen. In Ihrem Fall würde ich aus dem oben genannten Grund einen Permutationstest durchführen. (Ich nehme an, dass Sie dies getan haben, wenn ich es richtig verstanden habe.) Ein Permutationstest ist hier gültig, da Sie den beiden Gruppen zufällig Benutzer zugewiesen haben. daher sind sie austauschbar.t
Um einen Permutationstest durchzuführen, mischen Sie einfach den Gruppierungsindikator und berechnen die Mittelwerte und eine Differenz zwischen den Mittelwerten. Wenn Sie dies viele Male tun, können Sie eine Stichprobenverteilung der Differenz zwischen den Mitteln erstellen. Sie können Ihren beobachteten Unterschied mit der Stichprobenverteilung vergleichen. Nehmen Sie für einen zweiseitigen Test den kleineren Anteil über Ihre Differenz hinaus und multiplizieren Sie ihn mit zwei. Das Produkt ist direkt als Wert interpretierbar . Hier ist ein Beispiel mit Ihren Daten:p
In Bezug auf die erste Studienfrage, dh "welche Version hat eine größere Anzahl von Spenden erbracht", während ich zugebe, dass jeder ABBA liebt , können Sie dies auch tunz
R
. Ich würde einen Test der Differenz zweier Proportionen verwenden. In , das ist . Hier ist ein Beispiel mit Ihren Daten:R
prop.test()
quelle
b <- function(n) dbinom(0:n, n, 1/2); p <- apply(expand.grid(b(1), b(1), b(4), b(6), b(10)), 1, prod); n <- as.matrix(expand.grid(0:1, 0:1, 0:4, 0:6, 0:10)) %*% c(50,40,20,10,5); plot(dist <- aggregate(p, list(n), sum))
.@ gungs Antwort ist richtig. Ich möchte jedoch hinzufügen, dass der Mittelwert möglicherweise nicht robust ist und daher möglicherweise nicht der "richtige" Index für die Darstellung der Zentralität Ihrer Verteilung ist, da Ihre Daten möglicherweise verzerrt sind und einen großen rechten Schwanz aufweisen. Daher würde ich es auch mit robusteren Lösungen wie Medianen oder abgeschnittenen Mitteln versuchen.
quelle