Dies ist eine Folgefrage zu dem, was Frank Harrell hier geschrieben hat :
Nach meiner Erfahrung ist der erforderliche Stichprobenumfang für die Genauigkeit der t-Verteilung häufig größer als der vorliegende Stichprobenumfang. Der Wilcoxon-Signed-Rank-Test ist, wie Sie sagten, äußerst effizient und robust. Daher bevorzuge ich ihn fast immer dem T-Test
Wenn ich es richtig verstehe, würden wir beim Vergleich der Position zweier nicht übereinstimmender Stichproben den Wilcoxon-Rang-Summen-Test dem ungepaarten t-Test vorziehen, wenn unsere Stichprobengrößen klein sind.
Gibt es eine theoretische Situation, in der wir den Wilcoxon-Rang-Summen-Test dem ungepaarten t-Test vorziehen würden, obwohl die Stichproben unserer beiden Gruppen relativ groß sind?
Meine Motivation für diese Frage ergibt sich aus der Beobachtung, dass bei einem T-Test mit einer nicht ganz so kleinen Stichprobe einer verzerrten Verteilung für eine einzelne Stichprobe ein falscher Typ-I-Fehler auftritt:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error
quelle
Antworten:
Ja da ist. Zum Beispiel zerstört jede Stichprobe aus Verteilungen mit unendlicher Varianz den t-Test, nicht jedoch den Wilcoxon. Unter Bezugnahme auf nichtparametrische statistische Methoden (Hollander und Wolfe) sehe ich, dass die asymptotische relative Effizienz (ARE) des Wilcoxon im Verhältnis zum t-Test 1,0 für die Gleichverteilung beträgt, 1,097 (dh Wilcoxon ist besser) für die Logistik, 1,5 für das doppelte Exponential (Laplace) und 3.0 für das Exponential.
Hodges und Lehmann haben gezeigt, dass die minimale ARE des Wilcoxon im Vergleich zu jedem anderen Test 0,864 beträgt. Sie können also nie mehr als 14% Wirkungsgrad verlieren, wenn Sie ihn im Vergleich zu anderen Tests verwenden. (Natürlich ist dies ein asymptotisches Ergebnis.) Folglich sollte Frank Harrells Verwendung des Wilcoxon als Standard wahrscheinlich von fast jedem übernommen werden, auch von mir.
Bearbeiten: Bei der Beantwortung der folgenden Frage in Kommentaren ist der Hodges-Lehmann-Schätzer für diejenigen, die Konfidenzintervalle bevorzugen, der Schätzer, der dem Wilcoxon-Test "entspricht", und um diesen herum können Konfidenzintervalle konstruiert werden.
quelle
Lassen Sie mich in den Kommentaren zu dir zurück zu unserer Diskussion bringen diese Frage. Der Wilcoxon-Summenrang-Test entspricht dem Mann-Whitney-U-Test (und seine direkte Erweiterung für mehr als zwei Proben wird als Kruskal-Wallis-Test bezeichnet). Sie können sowohl in Wikipedia als auch in diesem Text sehen, dass Mann-Whitney (oder Kruskal-Wallis) im Allgemeinen keine Mittelwerte oder Mediane vergleicht. Es vergleicht die Gesamtprävalenz von Werten: Welche der Stichproben ist "stochastisch größer"? Der Test ist verteilungsfrei. T-Test vergleicht Mittelwerte. Es wird eine Normalverteilung angenommen. Die Tests gehen also von unterschiedlichen Hypothesen aus. In den meisten Fällen planen wir nicht, die Mittelwerte spezifisch zu vergleichen, sondern möchten wissen, welche Stichprobe um Werte größer ist, und dies macht Mann-Whitney zum Standardtest für uns. Wenn andererseits beide Verteilungen symmetrisch sind, degeneriert die Aufgabe des Testens, ob eine Probe "größer" als die andere ist, in die Aufgabe des Vergleichs der beiden Mittelwerte, und wenn die Verteilungen bei gleichen Varianzen normal sind, wird t-Test etwas stärker.
quelle