Pearson- oder Spearman-Korrelation mit nicht normalen Daten

113

Ich bekomme diese Frage häufig genug in meiner Statistikberatung, so dass ich dachte, ich würde sie hier posten. Ich habe eine Antwort, die unten steht, aber ich war gespannt, was andere zu sagen haben.

Frage: Wenn Sie zwei Variablen haben, die nicht normal verteilt sind, sollten Sie Spearmans Rho für die Korrelation verwenden?

Jeromy Anglim
quelle
1
Warum nicht beides berechnen und melden (Pearson's r und Spearman's ρ)? Ihr Unterschied (oder ihr Fehlen) liefert zusätzliche Informationen.
Eine Frage, die die Verteilungsannahmen vergleicht, die beim Testen eines einfachen Beta-Regressionskoeffizienten auf Signifikanz und beim Testen des Pearson-Korrelationskoeffizienten (numerisch gleich Beta) getroffen wurden . Stats.stackexchange.com/q/181043/3277 .
TTNPHNS

Antworten:

77

Die Pearson-Korrelation ist ein Maß für die lineare Beziehung zwischen zwei kontinuierlichen Zufallsvariablen. Es wird keine Normalität vorausgesetzt, obwohl endliche Varianzen und endliche Kovarianz vorausgesetzt werden. Wenn die Variablen bivariat normal sind, liefert die Pearson-Korrelation eine vollständige Beschreibung der Assoziation.

Die Spearman-Korrelation gilt für Ränge und liefert so ein Maß für eine monotone Beziehung zwischen zwei kontinuierlichen Zufallsvariablen. Es ist auch nützlich für Ordnungsdaten und ist robust gegenüber Ausreißern (im Gegensatz zur Pearson-Korrelation).

Die Verteilung eines der Korrelationskoeffizienten hängt von der zugrunde liegenden Verteilung ab, obwohl beide aufgrund des zentralen Grenzwertsatzes asymptotisch normal sind.

Rob Hyndman
quelle
12
Pearson's geht nicht von Normalität aus, sondern ist nur dann ein erschöpfendes Maß für die Assoziation, wenn die gemeinsame Verteilung multivariat normal ist. Angesichts der Verwirrung, die diese Unterscheidung hervorruft, möchten Sie sie möglicherweise zu Ihrer Antwort hinzufügen. ρ
User603
3
Gibt es eine Quelle, die zitiert werden kann, um die obige Aussage zu stützen (das r der Person geht nicht von Normalität aus)? Wir haben im Moment das gleiche Argument in unserer Abteilung.
5
"Wenn die Variablen bivariant normal sind, liefert die Pearson-Korrelation eine vollständige Beschreibung der Assoziation." Und wenn die Variablen NICHT bivariat normal sind, wie nützlich ist Pearsons Korrelation?
Landroni
2
Diese Antwort scheint eher indirekt zu sein. "Wenn die Variablen bivariat normal sind ..." Und wann nicht? Diese Art der Erklärung ist, warum ich nie Statistiken bekomme. "Rob, wie gefällt dir mein neues Kleid?" "Die dunkle Farbe betont Ihre helle Haut." „Sicher, Rob, aber tun Sie mögen , wie es meine Haut emphasisez?“ "Helle Haut gilt in vielen Kulturen als schön." "Ich weiß, Rob, aber gefällt es dir ?" "Ich finde das Kleid wunderschön." "Ich denke auch, Rob, aber ist es schön für mich ?" "Du siehst für mich immer schön aus, Schatz." sigh
1
Wenn Sie die beiden Sätze vorher gelesen haben, finden Sie die Antwort.
Rob Hyndman
49

Vergiss nicht Kendalls Tau ! Roger Newson hat für die Überlegenheit von Kendalls τ a über Spearmans Korrelation r S als ein rangbasiertes Maß für die Korrelation in einer Arbeit plädiert, deren Volltext jetzt online frei verfügbar ist:

Newson R. Parameter hinter "nichtparametrischen" Statistiken: Kendalls Tau, Somers 'D und Medianunterschiede . Stata Journal 2002; 2 (1): 45 & ndash; 64.

Er verweist (auf S. 47) auf Kendall & Gibbons (1990) und argumentiert, dass "... Konfidenzintervalle für Spearmans r S weniger zuverlässig und weniger interpretierbar sind als Konfidenzintervalle für Kendalls τ -Parameter, aber das Beispiel für Spearmans r S ist viel einfacher ohne Computer berechnet "(was natürlich nicht mehr so ​​wichtig ist). Leider habe ich keinen einfachen Zugang zu einer Kopie ihres Buches:

Kendall, MG und JD Gibbons. 1990. Rangkorrelationsmethoden . 5th ed. London: Griffin.

ein Stop
quelle
2
Ich bin auch ein großer Fan von Kendalls Tau. Pearson ist für meinen Geschmack viel zu empfindlich gegenüber einflussreichen Punkten / Ausreißern, und obwohl Spearman nicht unter diesem Problem leidet, finde ich persönlich, dass Kendall leichter zu verstehen, zu interpretieren und zu erklären ist als Spearman. Natürlich kann Ihr Kilometerstand variieren.
Stephan Kolassa
Erfahrungsgemäß läuft Kendalls Tau (in R) immer noch viel langsamer als das von Spearman. Dies kann wichtig sein, wenn Ihr Datensatz groß ist.
wordsforthewise
35

Aus einer angewandten Perspektive geht es mir eher darum, einen Ansatz zu wählen, der die Beziehung zwischen zwei Variablen auf eine Weise zusammenfasst, die mit meiner Forschungsfrage übereinstimmt. Ich denke, dass die Bestimmung einer Methode zur Ermittlung genauer Standardfehler und p-Werte eine Frage ist, die an zweiter Stelle stehen sollte. Auch wenn Sie sich nicht auf die Asymptotik verlassen, besteht immer die Möglichkeit, die Verteilungsannahmen zu booten oder zu ändern.

In der Regel bevorzuge ich Pearsons Korrelation, weil (a) sie im Allgemeinen eher meinen theoretischen Interessen entspricht; (b) es ermöglicht eine direktere Vergleichbarkeit der Ergebnisse über Studien hinweg, da die meisten Studien in meinem Gebiet die Korrelation von Pearson angeben; und (c) in vielen Situationen gibt es einen minimalen Unterschied zwischen Pearson- und Spearman-Korrelationskoeffizienten.

Es gibt jedoch Situationen, in denen Pearsons Korrelation zu Rohvariablen meiner Meinung nach irreführend ist.

  • Ausreißer: Ausreißer können einen großen Einfluss auf Pearsons Korrelationen haben. Viele Ausreißer in angewendeten Einstellungen reflektieren Messfehler oder andere Faktoren, auf die das Modell nicht verallgemeinern soll. Eine Möglichkeit besteht darin, solche Ausreißer zu entfernen. Univariate Ausreißer existieren bei Spearmans Rho nicht, weil alles in Ränge umgewandelt wird. Somit ist Spearman robuster.
  • Stark verzerrte Variablen: Bei der Korrelation von verzerrten Variablen, insbesondere stark verzerrten Variablen, wird durch ein Protokoll oder eine andere Transformation häufig die zugrunde liegende Beziehung zwischen den beiden Variablen deutlicher (z. B. Gehirngröße nach Körpergewicht der Tiere). In solchen Einstellungen kann es sein, dass die Rohmetrik ohnehin nicht die aussagekräftigste Metrik ist. Spearmans Rho hat einen ähnlichen Effekt wie die Transformation, indem beide Variablen in Ränge konvertiert werden. Aus dieser Perspektive kann Spearmans Rho als eine schnelle und schmutzige Herangehensweise gesehen werden (oder positiver, es ist weniger subjektiv), bei der Sie nicht über optimale Transformationen nachdenken müssen.

In beiden oben genannten Fällen empfehle ich den Forschern, entweder Anpassungsstrategien (z. B. Transformationen, Entfernung / Anpassung von Ausreißern) in Betracht zu ziehen, bevor sie die Pearson-Korrelation anwenden, oder Spearmans Rho zu verwenden.

Jeromy Anglim
quelle
Das Problem bei der Transformation besteht darin, dass im Allgemeinen auch die mit jedem Punkt verbundenen Fehler und damit die Gewichtung transformiert werden. Und es löst nicht das Problem des Ausreißers.
Skan
11

Aktualisiert

Die Frage fordert uns auf, zwischen Pearsons und Spearmans Methode zu wählen, wenn die Normalität in Frage gestellt wird. Eingeschränkt auf dieses Anliegen sollte meines Erachtens das folgende Papier die Entscheidung eines jeden beeinflussen:

Es ist ganz nett und bietet einen Überblick über die umfangreiche Literatur zu diesem Thema über Jahrzehnte hinweg - ausgehend von Pearsons "verstümmelten und verzerrten Oberflächen" und der Robustheit der Verteilung von . Zumindest ein Teil der Widersprüchlichkeit der "Tatsachen" besteht darin, dass ein Großteil dieser Arbeit vor dem Aufkommen der Rechenleistung geleistet wurde - was die Dinge komplizierte, weil die Art der Nichtnormalität berücksichtigt werden musste und ohne Simulationen schwer zu untersuchen war.r

Kowalski Analyse kommt zu dem Schluss , dass die Verteilung von ist nicht robust in Gegenwart von Nicht-Normalität und empfiehlt alternative Verfahren. Der gesamte Artikel ist sehr informativ und wird empfohlen, aber eine Zusammenfassung finden Sie am Ende des Artikels.r

Wenn Sie gefragt werden, ob Sie bei einem Verstoß gegen die Normalität zwischen Spearman und Pearson wählen möchten, ist die vertriebsfreie Alternative, dh die Methode von Spearman, empfehlenswert.


Zuvor ..

Die Spearman-Korrelation ist ein rangbasiertes Korrelationsmaß. es ist nicht parametrisch und beruht nicht auf einer Annahme der Normalität.

Die Stichprobenverteilung für die Pearson-Korrelation geht von Normalität aus; Dies bedeutet insbesondere, dass die auf Signifikanztests basierenden Schlussfolgerungen möglicherweise nicht stichhaltig sind, obwohl Sie sie berechnen können.

Wie Rob in den Kommentaren betont, ist dies bei großen Stichproben kein Problem. Bei kleinen Stichproben, bei denen die Normalität verletzt wird, sollte die Spearman-Korrelation bevorzugt werden.

Update Nach den Kommentaren und Antworten scheint es mir, dass dies auf die übliche Debatte über nicht-parametrische vs. parametrische Tests hinausläuft. Ein Großteil der Literatur, z. B. in der Biostatistik, befasst sich nicht mit großen Proben. Ich bin im Allgemeinen nicht unbekümmert, wenn ich mich auf Asymptotika verlasse. Vielleicht ist es in diesem Fall gerechtfertigt, aber für mich ist das nicht ohne weiteres ersichtlich.

ars
quelle
1
Die Korrelation von Pearson geht NICHT von Normalität aus. Es ist eine Schätzung der Korrelation zwischen zwei beliebigen kontinuierlichen Zufallsvariablen und unter relativ allgemeinen Bedingungen ein konsistenter Schätzer. Selbst Tests, die auf Pearsons Korrelation basieren, erfordern keine Normalität, wenn die Stichproben aufgrund der CLT groß genug sind.
Rob Hyndman
2
Ich habe den Eindruck, dass Pearson definiert ist, solange die zugrunde liegenden Verteilungen endliche Varianzen und Kovarianzen aufweisen. Normalität ist also nicht erforderlich. Wenn die zugrunde liegenden Verteilungen nicht normal sind, hat die Teststatistik möglicherweise eine andere Verteilung, dies ist jedoch ein sekundäres Problem und für die vorliegende Frage nicht relevant. Ist das nicht so
2
@Rob: Ja, wir können immer Abhilfemaßnahmen finden, damit die Dinge ungefähr gleich laufen. Einfach, um Spearmans Methode zu vermeiden - die die meisten Nicht-Statistiker mit einem Standardbefehl handhaben können. Ich denke, mein Rat bleibt, Spearmans Methode für kleine Stichproben zu verwenden, bei denen die Normalität fraglich ist. Ich bin mir nicht sicher, ob das hier umstritten ist oder nicht.
ars
1
@ars. Ich würde Spearman's verwenden, wenn ich eher an monotonen als an linearen Assoziationen interessiert wäre, oder wenn es Ausreißer oder starke Schrägstellungen gäbe. Ich würde Pearson's für lineare Beziehungen verwenden, vorausgesetzt, es gibt keine Ausreißer. Ich denke nicht, dass die Stichprobengröße für die Auswahl relevant ist.
Rob Hyndman
3
@Rob: OK, danke für die Diskussion. Ich stimme dem ersten Teil zu, bezweifle aber den letzten und würde einschließen, dass Größe nur eine Rolle spielt, weil normale Asymptotika nicht zutreffen. Zum Beispiel hat Kowalski 1972 einen ziemlich guten Überblick über die Geschichte, und kommt zu dem Schluss, dass die Korrelation von Pearson nicht so robust ist wie gedacht. Siehe: jstor.org/pss/2346598
ars