Angenommen, wir haben die folgenden Daten:
set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
y = c(rep('A', 50), rep('B', 50)))
Was das folgende Boxplot ( boxplot(data$x ~ data$y)
) ergibt :
Angenommen, ich möchte testen, ob die beiden Stichproben dieselben Standortparameter haben (Median und / oder Mittelwert). In meinem realen Fall sind die Daten eindeutig nicht normal , daher habe ich beschlossen, den Wilcoxon-Mann-Whitney-Test wie folgt durchzuführen:
wilcox.test(data$x ~ data$y)
Ich möchte jedoch, dass die alternative Hypothese lautet, dass B, data$y
der "zweite" Faktor, aus einer Verteilung mit höheren Positionsparametern stammt. Ich habe versucht, den alternative
Parameter auf "größer" und "kleiner" zu setzen, aber anscheinend sind die alternativen Hypothesen nicht das, wonach ich suche. Zum Beispiel alternative = "greater"
sagt mir "alternative Hypothese: wahre Ortsverschiebung ist größer als 0"; alternative = "less"
sagt mir "alternative Hypothese: wahre Ortsverschiebung ist kleiner als 0".
Wie kann ich die wilcox.test()
Funktion optimieren , um die gewünschte alternative Hypothese zu erhalten (B stammt aus einer Verteilung mit höheren Positionsparametern als A)? Oder sollte ich stattdessen einfach einen anderen Test verwenden?
quelle
rnorm()
, sodass sie normal sein müssen . Ich frage mich, ob Sie über die Art der Annahme der Normalität verwirrt sind. es kann Ihnen helfen, dieses Thema zu lesen: Was ist, wenn Residuen normal verteilt sind , aber y nicht .Antworten:
Technisch hängen die Referenzkategorie und die Richtung des Tests von der Art und Weise ab, wie die Faktorvariable codiert wird. Mit Ihren Spielzeugdaten:
Beachten Sie, dass die W-Statistik in beiden Fällen dieselbe ist, der Test jedoch entgegengesetzte Schwänze seiner Stichprobenverteilung verwendet. Schauen wir uns nun die Faktorvariable an:
Wir können es neu codieren, um "B" zur ersten Ebene zu machen:
Jetzt haben wir:
Beachten Sie, dass wir die Daten selbst nicht geändert haben , sondern nur die Art und Weise, wie die kategoriale Variable „unter der Haube“ codiert wird:
Aber die Richtungen des Tests sind jetzt umgekehrt:
Die W-Statistik ist unterschiedlich, aber der p- Wert ist der gleiche wie für den
alternative="less"
Test mit den Kategorien in der ursprünglichen Reihenfolge. Mit den Originaldaten könnte es interpretiert werden als "die Ortsverschiebung von B nach A ist kleiner als 0" und mit den rekodierten Daten wird es "die Ortsverschiebung von A nach B ist größer als 0", aber dies ist wirklich die gleiche Hypothese (aber siehe Glen_bs Kommentare zur Frage für die richtige Interpretation).In Ihrem Fall scheint es daher der gewünschte Test zu sein
alternative="less"
(oder gleichwertigalternative="greater"
mit den neu codierten Daten). Hilft das?quelle