Angemessenheit des von Wilcoxon unterzeichneten Rangtests

11

Ich habe mich ein bisschen in den Cross Validated-Archiven umgesehen und keine Antwort auf meine Frage gefunden. Meine Frage lautet wie folgt: Wikipedia gibt drei Annahmen an, die für den von Wilcoxon signierten Rangtest gelten müssen (für meine Fragen leicht modifiziert):

Sei Zi = Xi-Yi für i = 1, ..., n.

  1. Die Unterschiede Zi werden als unabhängig angenommen.

  2. (a.) Jedes Zi stammt aus derselben kontinuierlichen Population, und (b.) jedes Zi ist symmetrisch zu einem gemeinsamen Median;

  3. Die Werte, die Xi und Yi darstellen, sind geordnet ... daher sind die Vergleiche "größer als", "kleiner als" und "gleich" nützlich.

Die Dokumentation für? Wilcox.test in R scheint jedoch darauf hinzudeuten, dass (2.b) tatsächlich etwas ist, das durch die Prozedur getestet wird:

"... wenn sowohl x als auch y gegeben und gepaart sind, wird ein von Wilcoxon signierter Rangtest der Null durchgeführt, bei dem die Verteilung ... von x - y (im Fall mit zwei gepaarten Stichproben) symmetrisch zu mu ist."

Das klingt für mich so, als ob der Test für die Nullhypothese durchgeführt wird, dass "Z symmetrisch um den Median mu = SomeMu verteilt ist" - so dass die Zurückweisung der Null entweder eine Zurückweisung der Symmetrie oder eine Zurückweisung der mu sein könnte, um die herum Z ist symmetrisch ist SomeMu.

Ist dies ein korrektes Verständnis der R-Dokumentation für wilcox.test? Der Grund, warum dies wichtig ist, ist natürlich, dass ich eine Reihe von Paired-Difference-Tests für einige Vorher-Nachher-Daten durchführe ("X" und "Y" oben). Die "Vorher" - und "Nachher" -Daten sind einzeln stark verzerrt, aber die Unterschiede sind nicht annähernd so stark verzerrt (obwohl sie immer noch etwas verzerrt sind). Damit meine ich, dass die allein betrachteten "Vorher" - oder "Nachher" -Daten eine Schiefe von ~ 7 bis 21 aufweisen (abhängig von der Stichprobe, die ich betrachte), während die "Differenz" -Daten eine Schiefe von ~ = 0,5 bis 5 aufweisen. aber nicht annähernd so viel.

Wenn die Schiefe in meinen "Unterschieds" -Daten dazu führt, dass der Wilcoxon-Test zu falschen / voreingenommenen Ergebnissen führt (wie der Wikipedia-Artikel zu zeigen scheint), kann die Schiefe ein großes Problem sein. Wenn die Wilcoxon-Tests jedoch tatsächlich testen, ob die Differenzverteilung "symmetrisch um mu = SomeMu" ist (wie? Wilcox.test zu zeigen scheint), ist dies weniger besorgniserregend.

Meine Fragen sind also:

  1. Welche Interpretation ist richtig? Wird die Schiefe in meiner "Differenz" -Verteilung meinen Wilcoxon-Test beeinflussen?

  2. Wenn Schiefe ein Problem ist : "Wie viel Schiefe ist ein Problem?"

  3. Wenn die von Wilcoxon unterzeichneten Rangtests hier grob unangemessen erscheinen, gibt es Vorschläge, was ich verwenden sollte?

Vielen Dank. Wenn Sie weitere Vorschläge haben, wie ich diese Analyse durchführen könnte, freue ich mich sehr über diese (obwohl ich zu diesem Zweck auch einen anderen Thread öffnen kann). Dies ist auch meine erste Frage zu Cross Validated. Wenn Sie Vorschläge / Kommentare dazu haben, wie ich diese Frage gestellt habe, bin ich auch dafür offen!


Ein kleiner Hintergrund: Ich analysiere einen Datensatz, der Beobachtungen zu sogenannten "Fehlern in der Unternehmensproduktion" enthält. Ich habe eine Beobachtung zu Fehlern im Produktionsprozess vor und nach einer Überraschungsinspektion und eines der Ziele der Analyse ist die Beantwortung der Frage: "Macht die Inspektion einen Unterschied in der Anzahl der beobachteten Fehler?"

Der Datensatz sieht ungefähr so ​​aus:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Es gibt ungefähr 4000 Beobachtungen. Die anderen Variablen sind katagorische Beobachtungen, die die Merkmale der Unternehmen beschreiben. Die Größe kann klein, mittel oder groß sein, und jede Firma ist eine und nur eine davon. Firmen können einige oder alle der "Typen" sein.

Ich wurde gebeten, einige einfache Tests durchzuführen, um festzustellen, ob es vor und nach den Inspektionen für alle Unternehmen und verschiedene Untergruppen (basierend auf Größe und Typ) statistisch signifikante Unterschiede bei den beobachteten Fehlerraten gab. T-Tests waren aus, weil die Daten sowohl vor als auch nach stark verzerrt waren, zum Beispiel in R sahen die Vorher-Daten ungefähr so ​​aus:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Diese sind erfunden - ich fürchte, ich kann die tatsächlichen Daten oder irgendwelche tatsächlichen Manipulationen aufgrund von Eigentums- / Datenschutzproblemen nicht veröffentlichen - ich entschuldige mich!)

Die gepaarten Unterschiede waren zentraler, passten aber bei normaler Verteilung immer noch nicht sehr gut - viel zu hoch. Die Differenzdaten sahen ungefähr so ​​aus:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Es wurde vorgeschlagen, dass ich einen von Wilcoxon signierten Rangtest verwende, und nach einer kurzen Überprüfung von? Wilcox.test und Wikipedia, und hier scheint dies der zu verwendende Test zu sein. In Anbetracht der obigen Annahmen glaube ich, dass (1) angesichts des Datenerzeugungsprozesses in Ordnung ist. Annahme (2.a) trifft für meine Daten nicht unbedingt zu, aber die Diskussion hier: Alternative zum Wilcoxon-Test, wenn die Verteilung nicht kontinuierlich ist? schien darauf hinzudeuten, dass dies kein allzu großes Problem war. Annahme (3) ist in Ordnung. Mein einziges Anliegen (glaube ich) ist die Annahme (2.b).

Eine zusätzliche Anmerkung , einige Jahre später: Ich nahm schließlich an einem ausgezeichneten nichtparametrischen Statistikkurs teil und verbrachte viel Zeit mit den Rang-Summen-Tests. Eingebettet in die Annahme (2.a) "Jedes Zi stammt aus derselben kontinuierlichen Population" ist die Idee, dass beide Proben aus Populationen mit gleicher Varianz stammen - dies erweist sich praktisch als äußerst wichtig. Wenn Sie Bedenken hinsichtlich unterschiedlicher Varianz in Ihren Populationen haben (aus denen Sie die Stichproben ziehen), sollten Sie sich Gedanken über die Verwendung von WMW machen.

CompEcon
quelle
Danke für die zwei Antworten! Sie haben mir beide ziemlich gleichermaßen geholfen. Ich hätte "beide gewählt", wenn ich könnte. Mike hat mich auf einige theoretische Erkenntnisse hingewiesen, die konzeptionell sehr hilfreich waren, obwohl Aniko meine ursprüngliche Frage etwas direkter beantwortete. Danke euch beiden!
CompEcon

Antworten:

8

Wikipedia hat Sie in die Irre geführt, als er sagte: "... wenn sowohl x als auch y gegeben und gepaart sind, ist WAHR, ein von Wilcoxon signierter Rangtest der Null, dass die Verteilung ... von x - y (im Fall mit zwei gepaarten Stichproben) symmetrisch ist über mu wird durchgeführt. "

zich=xich- -yich

ln((xich)ln((yich)

Mir? Ich würde beides tun und alles andere, was ich mir ausdenken könnte (Likelihood-Ratio-Test für Poisson-Zählungen nach Unternehmensgröße?). Beim Testen von Hypothesen geht es darum festzustellen, ob Beweise überzeugend sind, und einige Leute nehmen einen Haufen Überzeugungsarbeit.

Mike Anderson
quelle
Ah, das macht sehr viel Sinn. Besonders jetzt, wo ich nach Hause gekommen bin und mein altes DeGroot & Schervish-Lehrbuch herausgezogen habe, das eine schöne Beschreibung dessen enthält, was diese Zeichentests tatsächlich tun. Fantastisch. Und danke für die allgemeinen Gedanken zum Testen von Hypothesen :) Ich mag die Perspektive. Eine kleine Anmerkung: Der Teil, den Sie als irreführend notieren, stammt tatsächlich aus R, aus der Dokumentation für wilcox.test. Das ist ein wenig beunruhigend für mich ...
CompEcon
9

Sowohl Wikipedia als auch die R-Hilfeseite sind irgendwie korrekt und versuchen, dasselbe zu sagen, sie formulieren es einfach anders.

Der Wikipedia-Artikel gibt die Hypothesen als (Median = 0) vs (Median! = 0) an und sagt, dass Sie dies aus dem Test schließen können, wenn die Unterschiede eine symmetrische Verteilung haben (+ die anderen Annahmen).

Die R-Hilfeseite ist spezifischer und gibt die Hypothesen als (Median = 0 und die Unterschiede haben eine symmetrische Verteilung) vs (mindestens eine davon ist falsch) an. Es wurde also eine Annahme in die Nullhypothese verschoben. Ich denke, sie haben dies getan, um die Notwendigkeit der Symmetrie zu betonen: Bei verzerrten Unterschieden wird der Test mit vorzeichenbehaftetem Rang die Nullhypothese ablehnen, selbst wenn der Median tot ist. Wenn Sie ein Lehrbuch lesen, könnte es Ihnen auch sagen, dass die getestete Nullhypothese P (X> Y) = 0,5 ist - der Rest folgt tatsächlich einfach daraus.

In Bezug auf die Anwendung stellt sich natürlich die Frage, ob Sie sich speziell für den Median interessieren (und dann ist die Schiefe ein Problem und der Median-Test eine mögliche Alternative) oder ob Sie sich für die gesamte Verteilung interessieren und dann P (X> y)! = 0,5 ist ein Hinweis auf Änderungen.

Aniko
quelle
1
Ok, das macht Sinn. Danke für die Eingabe! Ich stelle fest, dass auf der Wikipedia-Seite für den Median-Test angegeben ist, dass der nicht gepaarte Mann-Whitney-U-Test bevorzugt wird. Dies lässt mich sofort denken, dass ich wieder da bin, wo ich angefangen habe, und denke, dass der gepaarte Wilcoxon-Test irgendwie mehr Informationen verwendet. Vielleicht versuche ich wirklich zu überlegen, was Sie meinen, wenn Sie sagen: "Kümmern Sie sich speziell um den Median ... oder um die gesamte Verteilung." Ich kümmere mich um die gesamte Verteilung, aber charakterisiere sie durch den Median.
CompEcon