Ich bekomme diese Frage häufig genug in meiner Statistikberatung, so dass ich dachte, ich würde sie hier posten. Ich habe eine Antwort, die unten steht, aber ich war gespannt, was andere zu sagen haben.
Frage: Wenn Sie zwei Variablen haben, die nicht normal verteilt sind, sollten Sie Spearmans Rho für die Korrelation verwenden?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
quelle
quelle
Antworten:
Die Pearson-Korrelation ist ein Maß für die lineare Beziehung zwischen zwei kontinuierlichen Zufallsvariablen. Es wird keine Normalität vorausgesetzt, obwohl endliche Varianzen und endliche Kovarianz vorausgesetzt werden. Wenn die Variablen bivariat normal sind, liefert die Pearson-Korrelation eine vollständige Beschreibung der Assoziation.
Die Spearman-Korrelation gilt für Ränge und liefert so ein Maß für eine monotone Beziehung zwischen zwei kontinuierlichen Zufallsvariablen. Es ist auch nützlich für Ordnungsdaten und ist robust gegenüber Ausreißern (im Gegensatz zur Pearson-Korrelation).
Die Verteilung eines der Korrelationskoeffizienten hängt von der zugrunde liegenden Verteilung ab, obwohl beide aufgrund des zentralen Grenzwertsatzes asymptotisch normal sind.
quelle
Vergiss nicht Kendalls Tau ! Roger Newson hat für die Überlegenheit von Kendalls τ a über Spearmans Korrelation r S als ein rangbasiertes Maß für die Korrelation in einer Arbeit plädiert, deren Volltext jetzt online frei verfügbar ist:
Newson R. Parameter hinter "nichtparametrischen" Statistiken: Kendalls Tau, Somers 'D und Medianunterschiede . Stata Journal 2002; 2 (1): 45 & ndash; 64.
Er verweist (auf S. 47) auf Kendall & Gibbons (1990) und argumentiert, dass "... Konfidenzintervalle für Spearmans r S weniger zuverlässig und weniger interpretierbar sind als Konfidenzintervalle für Kendalls τ -Parameter, aber das Beispiel für Spearmans r S ist viel einfacher ohne Computer berechnet "(was natürlich nicht mehr so wichtig ist). Leider habe ich keinen einfachen Zugang zu einer Kopie ihres Buches:
Kendall, MG und JD Gibbons. 1990. Rangkorrelationsmethoden . 5th ed. London: Griffin.
quelle
Aus einer angewandten Perspektive geht es mir eher darum, einen Ansatz zu wählen, der die Beziehung zwischen zwei Variablen auf eine Weise zusammenfasst, die mit meiner Forschungsfrage übereinstimmt. Ich denke, dass die Bestimmung einer Methode zur Ermittlung genauer Standardfehler und p-Werte eine Frage ist, die an zweiter Stelle stehen sollte. Auch wenn Sie sich nicht auf die Asymptotik verlassen, besteht immer die Möglichkeit, die Verteilungsannahmen zu booten oder zu ändern.
In der Regel bevorzuge ich Pearsons Korrelation, weil (a) sie im Allgemeinen eher meinen theoretischen Interessen entspricht; (b) es ermöglicht eine direktere Vergleichbarkeit der Ergebnisse über Studien hinweg, da die meisten Studien in meinem Gebiet die Korrelation von Pearson angeben; und (c) in vielen Situationen gibt es einen minimalen Unterschied zwischen Pearson- und Spearman-Korrelationskoeffizienten.
Es gibt jedoch Situationen, in denen Pearsons Korrelation zu Rohvariablen meiner Meinung nach irreführend ist.
In beiden oben genannten Fällen empfehle ich den Forschern, entweder Anpassungsstrategien (z. B. Transformationen, Entfernung / Anpassung von Ausreißern) in Betracht zu ziehen, bevor sie die Pearson-Korrelation anwenden, oder Spearmans Rho zu verwenden.
quelle
Aktualisiert
Die Frage fordert uns auf, zwischen Pearsons und Spearmans Methode zu wählen, wenn die Normalität in Frage gestellt wird. Eingeschränkt auf dieses Anliegen sollte meines Erachtens das folgende Papier die Entscheidung eines jeden beeinflussen:
Es ist ganz nett und bietet einen Überblick über die umfangreiche Literatur zu diesem Thema über Jahrzehnte hinweg - ausgehend von Pearsons "verstümmelten und verzerrten Oberflächen" und der Robustheit der Verteilung von . Zumindest ein Teil der Widersprüchlichkeit der "Tatsachen" besteht darin, dass ein Großteil dieser Arbeit vor dem Aufkommen der Rechenleistung geleistet wurde - was die Dinge komplizierte, weil die Art der Nichtnormalität berücksichtigt werden musste und ohne Simulationen schwer zu untersuchen war.r
Kowalski Analyse kommt zu dem Schluss , dass die Verteilung von ist nicht robust in Gegenwart von Nicht-Normalität und empfiehlt alternative Verfahren. Der gesamte Artikel ist sehr informativ und wird empfohlen, aber eine Zusammenfassung finden Sie am Ende des Artikels.r
Wenn Sie gefragt werden, ob Sie bei einem Verstoß gegen die Normalität zwischen Spearman und Pearson wählen möchten, ist die vertriebsfreie Alternative, dh die Methode von Spearman, empfehlenswert.
Zuvor ..
Die Spearman-Korrelation ist ein rangbasiertes Korrelationsmaß. es ist nicht parametrisch und beruht nicht auf einer Annahme der Normalität.
Die Stichprobenverteilung für die Pearson-Korrelation geht von Normalität aus; Dies bedeutet insbesondere, dass die auf Signifikanztests basierenden Schlussfolgerungen möglicherweise nicht stichhaltig sind, obwohl Sie sie berechnen können.
Wie Rob in den Kommentaren betont, ist dies bei großen Stichproben kein Problem. Bei kleinen Stichproben, bei denen die Normalität verletzt wird, sollte die Spearman-Korrelation bevorzugt werden.
Update Nach den Kommentaren und Antworten scheint es mir, dass dies auf die übliche Debatte über nicht-parametrische vs. parametrische Tests hinausläuft. Ein Großteil der Literatur, z. B. in der Biostatistik, befasst sich nicht mit großen Proben. Ich bin im Allgemeinen nicht unbekümmert, wenn ich mich auf Asymptotika verlasse. Vielleicht ist es in diesem Fall gerechtfertigt, aber für mich ist das nicht ohne weiteres ersichtlich.
quelle