Warum sind Beziehungen in nichtparametrischen Statistiken so schwierig?

14

Mein nichtparametrischer Text " Praktische nichtparametrische Statistik" enthält häufig klare Formeln für Erwartungen, Abweichungen, Teststatistiken und dergleichen, enthält jedoch den Vorbehalt, dass dies nur funktioniert, wenn wir Bindungen ignorieren. Bei der Berechnung der Mann-Whitney-U-Statistik wird empfohlen, beim Vergleich, der größer ist, gebundene Paare auszuschließen.

Ich verstehe, dass Bindungen nicht wirklich viel darüber aussagen, welche Population größer ist (wenn es das ist, woran wir interessiert sind), da keine Gruppe größer ist als die andere, aber es scheint, dass dies bei der Entwicklung asymptotischer Verteilungen keine Rolle spielen würde.

Warum ist es dann so ein Dilemma, sich mit Verbindungen in nichtparametrischen Verfahren zu befassen? Gibt es eine Möglichkeit, nützliche Informationen aus Krawatten zu extrahieren, anstatt sie einfach wegzuwerfen?

BEARBEITEN: In Bezug auf den Kommentar von @ whuber habe ich meine Quellen erneut überprüft, und einige Verfahren verwenden einen Durchschnitt von Rängen, anstatt die verknüpften Werte vollständig zu löschen. Während dies in Bezug auf die Aufbewahrung von Informationen sinnvoller erscheint, scheint es mir auch, dass es an Genauigkeit mangelt. Der Geist der Frage bleibt jedoch bestehen.

Christopher Aden
quelle
Wollen Sie damit sagen, dass die praktische nichtparametrische Statistik Ihnen sagt, dass Sie Daten " wegwerfen " sollen, wenn sie gebunden sind? Könnten Sie vielleicht seinen Rat falsch interpretieren? Könnten Sie es genau zitieren?
whuber
Ja, es ist möglich, dass ich den Rat falsch interpretiere. Vom selben Autor: jstor.org/stable/2284536 "Wilcoxon schlug vor, die Nullen anfangs aus den Daten zu entfernen und den Test für den reduzierten Datensatz durchzuführen. Wenn es keine Ungleichheit mit Nullen gibt, führt dieses Verfahren zu einer bedingten (angesichts der Zahl) Aus diesem Grund beziehen die meisten Bücher über nichtparametrische Statistiken die Methode von Wilcoxon in ihre Beschreibung des Tests ein "
Christopher Aden,
Zugegeben, dies bezieht sich auf den Wilcoxon Signed Rank-Test, aber ich habe ähnliche Ratschläge gehört, die in anderen NP-Verfahren verwendet wurden. In Bezug auf das Mann-Whitney-Beispiel ging ich zurück und überprüfte das Buch, und Sie sind richtig, dass ich mich irre. Bei Mann-Whitney empfiehlt das Buch, die Ränge der verknüpften Werte zu mitteln, dh wenn die Ränge 6 und 7 verknüpft sind, geben Sie jedem einen Wert von 6,5.
Christopher Aden
2
Vielen Dank. Es gibt strenge Möglichkeiten, gebundene Gruppen zu berücksichtigen. Sie sind wichtig, wenn Sie mit zensierten (aber fortlaufenden) Daten arbeiten, da die zensierten Werte häufig eine große Gruppe bilden. Informationen zu den Kruskal-Wallis- und Wilcoxon-Rang-Summen-Tests finden Sie in Kapitel 18 von RO Gilbert, * Statistische Methoden zur Überwachung der Umweltverschmutzung. "Formeln mit verknüpften Daten können kompliziert werden, aber in einigen Fällen (wie dem KW-Test) ist dies alles, was Sie tun müssen ist eine ANOVA - Tabelle für die Reihen berechnen.
whuber

Antworten:

14

Die meisten Arbeiten zur Nicht-Parametrik wurden ursprünglich unter der Annahme durchgeführt, dass es eine zugrunde liegende kontinuierliche Verteilung gibt, bei der Bindungen unmöglich sind (wenn sie genau genug gemessen werden). Die Theorie kann dann auf den Verteilungen von Ordnungsstatistiken (die ohne Bindungen viel einfacher sind) oder anderen Formeln basieren. In einigen Fällen erweist sich die Statistik als annähernd normal, was die Dinge wirklich einfach macht. Wenn Bindungen eingeführt werden, weil die Daten gerundet wurden oder von Natur aus diskret sind, gelten die Standardannahmen nicht. Die Annäherung mag in einigen Fällen noch gut genug sein, in anderen jedoch nicht. Oft ist es am einfachsten, nur zu warnen, dass diese Formeln mit Bindungen nicht funktionieren.

Es gibt Tools für einige der nichtparametrischen Standardtests, die die genaue Verteilung ermittelt haben, wenn Bindungen vorhanden sind. Das exactRankTests-Paket für R ist ein Beispiel.

Eine einfache Möglichkeit, mit Bindungen umzugehen, ist die Verwendung von Randomisierungstests wie Permutationstests oder Bootstrapping. Diese kümmern sich nicht um asymptotische Verteilungen, sondern verwenden die Daten wie sie sind, Bindungen und alles (beachten Sie, dass bei vielen Bindungen auch diese Techniken eine geringe Leistung haben können).

Vor ein paar Jahren gab es einen Artikel (ich dachte im American Statistician, aber ich finde ihn nicht), in dem die Ideen von Krawatten und einige der Dinge, die man damit machen kann, besprochen wurden. Ein Punkt ist, dass es davon abhängt, welche Frage Sie stellen. Was mit Krawatten zu tun ist, kann bei einem Überlegenheitstest von einem Nicht-Unterlegenheitstest sehr verschieden sein.

Greg Snow
quelle