Ich habe das Gefühl, dass dies anderswo gefragt wurde, aber nicht wirklich mit der Art der grundlegenden Beschreibung, die ich brauche. Ich weiß, dass sich nicht parametrische Werte auf den Median stützen und nicht auf den Mittelwert zum Vergleichen ... etwas. Ich glaube auch, dass es auf "Freiheitsgraden" (?) Anstelle von Standardabweichungen beruht. Korrigieren Sie mich, wenn ich mich irre.
Ich habe ziemlich gute Nachforschungen angestellt und versucht, das Konzept zu verstehen, was dahinter steckt, was die Testergebnisse wirklich bedeuten und / oder was ich überhaupt mit den Testergebnissen anfangen soll. niemand scheint sich jedoch jemals in dieses Gebiet zu wagen.
Der Einfachheit halber bleiben wir beim Mann-Whitney-U-Test, von dem ich bemerkt habe, dass er sehr beliebt ist (und der auch scheinbar missbraucht und überbeansprucht wird, um das "quadratische Modell in ein kreisförmiges Loch" zu zwingen). Wenn Sie auch die anderen Tests beschreiben möchten, fühlen Sie sich frei, obwohl ich das Gefühl habe, wenn ich einen verstehe, kann ich die anderen in analoger Weise zu verschiedenen T-Tests usw. verstehen.
Angenommen, ich führe einen nicht parametrischen Test mit meinen Daten durch und erhalte das folgende Ergebnis zurück:
2 Sample Mann-Whitney - Customer Type
Test Information
H0: Median Difference = 0
Ha: Median Difference ≠ 0
Size of Customer Large Small
Count 45 55
Median 2 2
Mann-Whitney Statistic: 2162.00
p-value (2-sided, adjusted for ties): 0.4156
Ich kenne andere Methoden, aber was ist hier anders? Soll der p-Wert kleiner als 0,05 sein? Was bedeutet die "Mann-Whitney-Statistik"? Gibt es eine Verwendung dafür? Überprüfen diese Informationen hier lediglich, ob eine bestimmte Datenquelle, über die ich verfüge, verwendet werden soll oder nicht?
Ich habe einiges an Erfahrung mit Regression und den Grundlagen, bin aber sehr neugierig auf dieses "spezielle" nicht parametrische Zeug - von dem ich weiß, dass es seine eigenen Mängel haben wird.
Stellen Sie sich vor, ich bin ein Fünftklässler und Sie können es mir erklären.
Antworten:
Kaum ein nichtparametrischer Test "verlässt" sich in diesem Sinne auf Mediane. Ich kann nur an ein Paar denken ... und das einzige, von dem Sie wahrscheinlich überhaupt gehört hätten, wäre der Zeichentest.
Wenn sie sich auf Mediane verlassen würden, wäre es vermutlich, Mediane zu vergleichen. Aber Tests wie der signierte Rangtest oder der Wilcoxon-Mann-Whitney-Test oder der Kruskal-Wallis-Test sind - trotz der vielen Quellen, die Ihnen dies zu sagen versuchen - überhaupt kein Median-Test. Wenn Sie einige zusätzliche Annahmen treffen, können Sie Wilcoxon-Mann-Whitney und Kruskal-Wallis als Tests von Medianen betrachten, aber unter den gleichen Annahmen (sofern die Verteilungsmittel existieren) können Sie sie auch als Mittelwerttest betrachten .
Die tatsächliche Standortschätzung, die für den Signed Rank-Test relevant ist, ist der Median der paarweisen Durchschnittswerte innerhalb der Stichprobe, derjenige für Wilcoxon-Mann-Whitney (und implizit für das Kruskal-Wallis) ist der Median der paarweisen Unterschiede zwischen den Stichproben .
Die meisten nichtparametrischen Tests haben keine "Freiheitsgrade", obwohl sich die Verteilung vieler Tests mit der Stichprobengröße ändert, und Sie könnten dies als Freiheitsgrade in dem Sinne ansehen, dass sich die Tabellen mit der Stichprobengröße ändern. Die Proben behalten natürlich ihre Eigenschaften bei und haben in diesem Sinne keine Freiheitsgrade, aber die Freiheitsgrade bei der Verteilung einer Teststatistik sind normalerweise nicht von Bedeutung. Es kann vorkommen, dass Sie so etwas wie Freiheitsgrade haben - zum Beispiel könnten Sie mit Sicherheit argumentieren, dass das Kruskal-Wallis Freiheitsgrade im Grunde in demselben Sinne hat wie ein Chi-Quadrat, aber es wird normalerweise nicht betrachtet auf diese Weise (zum Beispiel, wenn jemand von den Freiheitsgraden eines Kruskal-Wallis spricht, meint er fast immer den df
Eine gute Diskussion der Freiheitsgrade finden Sie hier /
Ich bin mir nicht sicher, was du damit meinst.
Ich könnte einige Bücher vorschlagen, wie Conovers Practical Nonparametric Statistics , und wenn Sie es bekommen können, Neave und Worthingtons Buch ( Distribution-Free Tests ), aber es gibt viele andere - Marascuilo & McSweeney, Hollander & Wolfe oder Daniels Buch zum Beispiel. Ich schlage vor, Sie lesen mindestens 3 oder 4 derjenigen, die am besten zu Ihnen sprechen, vorzugsweise diejenigen, die die Dinge so unterschiedlich wie möglich erklären (dies würde bedeuten, dass Sie mindestens ein wenig von vielleicht 6 oder 7 Büchern lesen, um herauszufinden, ob 3 zu Ihnen passen).
Das ist es, was mich an Ihrer Aussage verblüfft hat: "Niemand scheint sich jemals in dieses Gebiet zu wagen." Viele Leute, die diese Tests verwenden, wagen sich in das Gebiet, von dem Sie gesprochen haben.
Ich würde sagen, dass nichtparametrische Tests im Allgemeinen nicht ausreichend genutzt werden (einschließlich Wilcoxon-Mann-Whitney) - insbesondere Permutations- / Randomisierungstests, obwohl ich nicht unbedingt bestreiten würde, dass sie häufig missbraucht werden (aber auch parametrische Tests) mehr so).
[snip]
Welche anderen Methoden meinst du? Womit soll ich das vergleichen?
Bearbeiten: Sie erwähnen die Regression später; Ich gehe dann davon aus, dass Sie mit einem Zwei-Stichproben-T-Test vertraut sind (da es sich wirklich um einen speziellen Regressionsfall handelt).
Unter den Annahmen für den gewöhnlichen t-Test mit zwei Stichproben lautet die Nullhypothese, dass die beiden Populationen identisch sind, entgegen der Alternative, dass sich eine der Verteilungen verschoben hat. Wenn Sie sich die erste der beiden folgenden Hypothesensätze für Wilcoxon-Mann-Whitney ansehen, ist die grundlegende Sache, die dort getestet wird, fast identisch. Der T-Test basiert lediglich auf der Annahme, dass die Stichproben aus identischen Normalverteilungen stammen (abgesehen von einer möglichen Ortsverschiebung). Wenn die Nullhypothese wahr ist und die zugehörigen Annahmen wahr sind, hat die Teststatistik eine t-Verteilung. Wenn die Alternativhypothese wahr ist, nimmt die Teststatistik mit größerer Wahrscheinlichkeit Werte an, die nicht mit der Nullhypothese, sondern mit der Alternative übereinstimmen - wir konzentrieren uns auf die ungewöhnlichsten,
Die Situation ist bei Wilcoxon-Mann-Whitney sehr ähnlich, misst aber die Abweichung von der Null etwas anders. Wenn die Annahmen für den T-Test wahr sind *, ist er fast so gut wie der bestmögliche Test (der T-Test).
* (was in der Praxis nie der Fall ist, obwohl das eigentlich kein so großes Problem ist, wie es sich anhört)
In der Tat ist es möglich, den Wilcoxon-Mann-Whitney als einen "t-Test" zu betrachten, der an den Rängen der Daten durchgeführt wird - obwohl es dann keine t-Verteilung gibt; Die Statistik ist eine monotone Funktion einer T-Statistik mit zwei Stichproben, die für die Ränge der Daten berechnet wurde. Sie führt daher zu derselben Reihenfolge ** im Stichprobenraum (dies ist ein "T-Test" für die Ränge - entsprechend durchgeführt - würde die gleichen p-Werte erzeugen wie ein Wilcoxon-Mann-Whitney), so dass genau die gleichen Fälle verworfen werden.
** (strikter Teil der Bestellung, aber lassen wir das beiseite)
[Man könnte meinen, nur die Verwendung der Ränge würde eine Menge Informationen wegwerfen, aber wenn die Daten aus normalen Populationen mit der gleichen Varianz stammen, stimmen fast alle Informationen über die Ortsverschiebung mit den Rangmustern überein. Die tatsächlichen Datenwerte (abhängig von ihren Rängen) fügen dem sehr wenig zusätzliche Informationen hinzu. Wenn Sie schwerer als normal sind, hat der Wilcoxon-Mann-Whitney-Test nach kurzer Zeit eine bessere Leistung und behält sein nominelles Signifikanzniveau bei, sodass "zusätzliche" Informationen über den Rängen nicht nur uninformativ werden, sondern in einigen Fällen Sinn, irreführend. Nahezu symmetrische Schwerfälligkeit ist jedoch eine seltene Situation. Was Sie in der Praxis oft sehen, ist Schiefe.]
Die Grundideen sind sehr ähnlich, die p-Werte haben die gleiche Interpretation (die Wahrscheinlichkeit eines Ergebnisses, oder extremer, wenn die Nullhypothese wahr wäre) - bis hin zur Interpretation einer Ortsverschiebung, wenn Sie dies tun die erforderlichen Annahmen (siehe Diskussion der Hypothesen am Ende dieses Beitrags).
Wenn ich die gleiche Simulation wie in den obigen Darstellungen für den t-Test durchführen würde, würden die Darstellungen sehr ähnlich aussehen - die Skalierung auf der x- und der y-Achse würde unterschiedlich aussehen, aber das grundlegende Erscheinungsbild wäre ähnlich.
Sie sollten dort nichts "wollen". Die Idee besteht darin, herauszufinden, ob die Stichproben (in örtlicher Hinsicht) unterschiedlicher sind, als dies durch Zufall erklärt werden kann, und kein bestimmtes Ergebnis zu "wünschen".
Wenn ich sage „Können Sie gehen sehen , was Auto Farbe Raj ist bitte?“, Wenn ich eine unvoreingenommene Einschätzung davon möchte ich Sie nicht wollen , zu gehen „Mann, ich wirklich, wirklich hoffe , es ist blau! Es ist einfach hat zu sein Blau". Am besten, Sie sehen nur, wie die Situation ist, und gehen nicht auf ein „Ich brauche es, um etwas zu sein“ ein.
Wenn Sie ein Signifikanzniveau von 0,05 gewählt haben, lehnen Sie die Nullhypothese ab, wenn der p-Wert unter 0,05 liegt. Es ist jedoch mindestens ebenso interessant, nicht abzulehnen, wenn Sie über eine ausreichend große Stichprobe verfügen, um fast immer relevante Effektgrößen zu erkennen, da darin festgehalten wird, dass vorhandene Unterschiede gering sind.
Die Mann-Whitney- Statistik .
Dies ist im Vergleich zur Werteverteilung nur dann sinnvoll, wenn die Nullhypothese zutrifft (siehe obiges Diagramm). Dies hängt davon ab, welche der verschiedenen Definitionen von einem bestimmten Programm verwendet werden kann.
Normalerweise interessiert Sie der genaue Wert nicht, aber wo liegt er in der Nullverteilung (ob er mehr oder weniger typisch für die Werte ist, die Sie sehen sollten, wenn die Nullhypothese wahr ist, oder ob er extremer ist)
Dieser Test sagt nichts über "eine bestimmte Datenquelle, die ich haben sollte oder sollte nicht verwendet werden".
Siehe meine Diskussion der beiden Betrachtungsweisen der WMW-Hypothesen unten.
Nichtparametrische Tests haben nichts Besonderes (ich würde sagen, die Standardtests sind in vielerlei Hinsicht noch grundlegender als die typischen parametrischen Tests) - vorausgesetzt, Sie verstehen tatsächlich das Testen von Hypothesen.
Das ist jedoch wahrscheinlich ein Thema für eine andere Frage.
Es gibt zwei Hauptmethoden, um den Wilcoxon-Mann-Whitney-Hypothesentest zu betrachten.
i) Man kann sagen: "Ich bin an einer Ortsverschiebung interessiert - das heißt, dass unter der Nullhypothese die beiden Populationen die gleiche (kontinuierliche) Verteilung haben , entgegen der Alternative, dass man relativ zu der" nach oben "oder" nach unten "verschoben ist andere"
Das Wilcoxon-Mann-Whitney funktioniert sehr gut, wenn Sie diese Annahme machen (dass Ihre Alternative nur eine Standortverschiebung ist)
In diesem Fall ist der Wilcoxon-Mann-Whitney-Test tatsächlich ein Test für Mediane ... aber es ist auch ein Test für Mittelwerte oder eine andere ortsäquivariante Statistik (z. B. 90. Perzentile oder getrimmte Mittelwerte oder eine beliebige Anzahl von andere Dinge), da sie alle gleichermaßen von Standortverschiebungen betroffen sind.
Das Schöne daran ist, dass es sehr einfach zu interpretieren ist - und dass es einfach ist, ein Konfidenzintervall für diese Ortsverschiebung zu generieren.
Der Wilcoxon-Mann-Whitney-Test reagiert jedoch auf andere Unterschiede als eine Ortsverschiebung.
quelle
Angenommen, Sie und ich trainieren Streckenteams. Unsere Athleten kommen aus der gleichen Schule, haben ein ähnliches Alter und dasselbe Geschlecht (dh sie stammen aus der gleichen Bevölkerung), aber ich behaupte, ein revolutionäres neues Trainingssystem entdeckt zu haben, mit dem meine Teammitglieder viel schneller laufen als deine. Wie kann ich Sie davon überzeugen, dass es wirklich funktioniert?
Wir haben ein Rennen.
Danach setze ich mich und berechne die durchschnittliche Zeit für die Mitglieder meines Teams und die durchschnittliche Zeit für die Mitglieder Ihres Teams. Ich werde den Sieg erringen, wenn die mittlere Zeit für meine Athleten nicht nur schneller als die mittlere für Ihre ist, sondern der Unterschied auch im Vergleich zur "Streuung" oder Standardabweichung unserer Ergebnisse groß ist.
"Aber Matt", beschweren Sie sich, "das ist nicht ganz fair. Unsere Teams sind sich ziemlich ähnlich, aber Sie sind - aufgrund des reinen Zufalls - der schnellste Läufer im Distrikt. Er spielt nicht in der gleichen Liga wie alle anderen." Ansonsten ist er praktisch ein Freak der Natur. Er beendete 3 Minuten vor dem zweitschnellsten Finisher, was Ihre durchschnittliche Zeit erheblich verkürzt, aber der Rest der Konkurrenten ist ziemlich gleichmäßig gemischt. Schauen wir uns stattdessen die Zielreihenfolge an Funktioniert wirklich, die früheren Finalisten sollten größtenteils aus Ihrem Team stammen, aber wenn dies nicht der Fall ist, sollte die Reihenfolge der Finalisten ziemlich zufällig sein. Dies gibt Ihrem Superstar kein übermäßiges Gewicht! "
quelle
Sie haben um Korrektur gebeten, falls dies falsch ist. Unter dieser Überschrift finden Sie einige Kommentare, die die positiven Vorschläge von @Peter Flom ergänzen.
"Nicht-parametrisch basiert auf dem Median anstelle des Mittelwerts": häufig in der Praxis, aber das ist keine Definition. Einige nicht parametrische Tests (z. B. Chi-Quadrat) haben nichts mit Medianwerten zu tun.
stützt sich auf Freiheitsgrade anstelle von Standardabweichungen; das ist sehr verwirrt. Die Idee der Freiheitsgrade ist in keiner Weise eine Alternative zur Standardabweichung. freiheitsgrade als idee gelten statistisch übergreifend.
"Eine bestimmte Datenquelle, die ich habe, sollte oder sollte nicht verwendet werden": Diese Frage hat nichts mit dem von Ihnen angewendeten Signifikanztest zu tun, bei dem es nur um den Unterschied zwischen Untergruppen von Daten geht und der in Bezug auf den Unterschied zwischen Medianen ausgedrückt wird.
quelle
Sie "wollen" von einem p-Wert die gleichen Dinge, die Sie in jedem anderen Test wollen.
Die U-Statistik ist das Ergebnis einer Berechnung, genau wie die t-Statistik, die Odds Ratio, die F-Statistik oder was haben Sie. Die Formel kann viele Orte gefunden werden. Es ist nicht sehr intuitiv, aber es gibt auch keine anderen Teststatistiken, bis Sie sich daran gewöhnt haben (wir erkennen bei 2, dass sie im signifikanten Bereich liegen, weil wir sie ständig sehen).
Der Rest der Ausgabe in Ihrem Blocktext sollte klar sein.
Um eine allgemeinere Einführung in nichtparametrische Tests zu erhalten, sage ich @NickCox ... und besorge mir ein gutes Buch. Nicht parametrisch bedeutet einfach "ohne Parameter"; Es gibt viele nicht parametrische Tests und Statistiken für eine Vielzahl von Zwecken.
quelle
Als Antwort auf eine kürzlich geschlossene Frage wird hier auch das oben Gesagte angesprochen. Nachstehend finden Sie ein Zitat aus Bradleys klassischem " Distribution-Free Statistical Tests" (1968, S. 15–16), das meiner Meinung nach eine ziemlich klare Erklärung darstellt, obwohl es ein bisschen lang ist.
quelle