Wie wählt man zwischen Pearson- und Spearman-Korrelation?

119

Woher weiß ich, wann ich zwischen Spearman's und Pearson's wählen soll ? Meine Variable beinhaltet Zufriedenheit und die Bewertungen wurden unter Verwendung der Summe der Bewertungen interpretiert. Diese Punktzahlen könnten jedoch auch eingestuft werden.ρr

Amöbe
quelle
2
siehe auch diese frage zu pearson versus spearman für nicht normale daten stats.stackexchange.com/questions/3730/…
Jeromy Anglim
1
Bei normalen Daten ist Pearson zu produzieren. Bei nicht normalen Daten Spearman vorlegen.

Antworten:

137

Wenn Sie Ihre Daten untersuchen möchten, ist es am besten, beide zu berechnen, da die Beziehung zwischen den Korrelationen Spearman (S) und Pearson (P) einige Informationen liefert. Kurz gesagt, S wird in Rängen berechnet und zeigt so monotone Beziehungen, während P in wahren Werten ist und lineare Beziehungen zeigt.

Wenn Sie beispielsweise Folgendes festlegen:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Dies liegt daran, dass mit x monoton zunimmt, sodass die Spearman-Korrelation perfekt, aber nicht linear ist, sodass die Pearson-Korrelation nicht perfekt ist. yX

corr(x,log(y),'type','Pearson');  % will equal 1

Es ist interessant, beides zu tun, denn wenn Sie S> P haben, bedeutet dies, dass Sie eine Korrelation haben, die monoton, aber nicht linear ist. Da es gut ist, eine Linearität in der Statistik zu haben (dies ist einfacher), können Sie versuchen, eine Transformation auf (ein solches Protokoll) anzuwenden .y

Ich hoffe, dass dies dazu beiträgt, die Unterschiede zwischen den Korrelationstypen verständlicher zu machen.

Bonobotiker
quelle
2
Ich vermute, dass dies aus dem, was Sie bereits gesagt haben, eine Selbstverständlichkeit ist, aber ich möchte nur bestätigen, dass es nicht möglich ist, dass S <P auftritt.
Jonathan Thiele
9
@ JonathanThiele es ist durchaus möglich, S <P zu haben. Die Sätze II und IV aus Anscombes Quartetten veranschaulichen dieses Verhalten. Siehe auch diese Frage: stats.stackexchange.com/questions/27127/…
Atomicules
1
@atomicules Danke für die Information. Ich habe gerade die Korrelationen in Anscombes Quartett überprüft, und Ihr Link war hilfreich.
Jonathan Thiele
Wie können Sie Pearson- und Spearson-Korrelationen in eine Corrgram-Präsentation einbeziehen? - - Ich denke hier an den Fall stackoverflow.com/a/40523080/54964 - - Ich habe ein multifaktorielles Problem, daher denke ich, dass es gültig wäre, Spearson einzuschließen, und ich kann nicht nur mit Pearson gehen.
Léo Léopold Hertz 준영
Dies ist der Ansatz, den ich normalerweise verfolge, da er den zusätzlichen Vorteil hat, dass die sorgfältige Rechtfertigung eines Tests gegenüber einem anderen umgangen wird, insbesondere wenn die Korrelation zwischen vielen Variablen getestet wird. Anstatt jede Variable zu untersuchen, um festzustellen, ob die Annahmen der Pearson- oder Spearman-Korrelation erfüllt sind, führen Sie einfach beides für alles aus. In vielen praktischen Anwendungen geben sie ähnliche Maßstäbe für die Bedeutung der Assoziation an, sodass Sie nur die relativ wenigen Fälle genauer untersuchen müssen, in denen sich ihre Ergebnisse stark unterscheiden. Dies sind die interessanten Fälle, über die Sie ohnehin mehr erfahren können.
Nuclear Wang
50

Kürzeste und meist richtige Antwort ist:

Pearson Benchmarks lineare Beziehung, Spearman Benchmarks monotone Beziehung (wenige Unendlichkeiten allgemeiner Fall, aber für einige Kompromisse).

y=1X+0


quelle
35

Dies kommt häufig in der Statistik vor: Es gibt verschiedene Methoden, die in Ihrer Situation angewendet werden können, und Sie wissen nicht, welche Sie wählen sollen. Sie sollten Ihre Entscheidung auf die Vor- und Nachteile der betrachteten Methoden und die Besonderheiten Ihres Problems stützen, aber selbst dann ist die Entscheidung in der Regel subjektiv, ohne dass eine "richtige" Antwort vereinbart wurde. Normalerweise ist es eine gute Idee, so viele Methoden auszuprobieren, wie vernünftig erscheinen und dass Ihre Geduld es zulässt, um zu sehen, welche Ihnen am Ende die besten Ergebnisse bringen.

Der Unterschied zwischen der Pearson-Korrelation und der Spearman-Korrelation besteht darin, dass die Pearson-Korrelation am besten für Messungen auf einer Intervallskala geeignet ist, während die Spearman-Korrelation eher für Messungen auf Ordnungsskalen geeignet ist . Beispiele für Intervallskalen sind "Temperatur in Fahrenheit" und "Länge in Zoll", in denen die einzelnen Einheiten (1 ° F, 1 Zoll) sinnvoll sind. Dinge wie "Zufriedenheitswerte" sind in der Regel ordinaler Art, da klar ist, dass "5 Glück" glücklicher ist als "3 Glück", aber nicht klar ist, ob Sie "1 Glückseinheit" sinnvoll interpretieren können. Aber wenn Sie addieren Bei vielen Messungen des Ordinaltyps, die Sie in Ihrem Fall haben, erhalten Sie eine Messung, die in Wirklichkeit weder ordinal noch intervallbasiert ist und die schwer zu interpretieren ist.

Ich würde empfehlen, dass Sie Ihre Zufriedenheitsbewertungen in Quantilbewertungen umwandeln und dann mit deren Summen arbeiten, da dies Ihnen Daten liefert, die für die Interpretation ein wenig besser geeignet sind. Aber auch in diesem Fall ist nicht klar, ob Pearson oder Spearman angemessener wären.

charles.y.zheng
quelle
2
Wie wäre es zum Beispiel mit ... Kommunikationsangst? Eine hohe Besorgnis hat keinen bestimmten Unterschied zu einer sehr hohen Besorgnis, oder? Aber ich habe gesehen, dass die Variable mit Pearson's r mit anderen Variablen korreliert wurde. Ist das völlig in Ordnung? Danke!
28

Ich bin heute auf einen interessanten Eckfall gestoßen.

Wenn wir eine sehr kleine Anzahl von Proben betrachten, kann der Unterschied zwischen Spearman und Pearson dramatisch sein.

Im folgenden Fall weisen die beiden Methoden eine genau entgegengesetzte Korrelation auf.

Bildbeschreibung hier eingeben

Einige schnelle Faustregeln für die Entscheidung zwischen Spearman und Pearson:

  • Die Annahmen von Pearsons sind konstante Varianz und Linearität (oder etwas ziemlich Ähnliches), und wenn diese nicht erfüllt werden, lohnt es sich möglicherweise, Spearmans auszuprobieren.
  • Das obige Beispiel ist ein Eckfall, der nur angezeigt wird, wenn eine Handvoll (<5) Datenpunkte vorhanden sind. Wenn es> 100 Datenpunkte gibt und die Daten linear sind oder nahe daran liegen, ist Pearson Spearman sehr ähnlich.
  • Wenn Sie der Meinung sind, dass die lineare Regression eine geeignete Methode zur Analyse Ihrer Daten ist, entspricht die Ausgabe von Pearsons dem Vorzeichen und der Größe einer linearen Regressionssteigung (wenn die Variablen standardisiert sind).
  • Wenn Ihre Daten einige nichtlineare Komponenten enthalten, die von der linearen Regression nicht erfasst werden, versuchen Sie zunächst, die Daten durch Anwenden einer Transformation (möglicherweise log e) in eine lineare Form zu bringen. Wenn das nicht funktioniert, ist Spearman möglicherweise geeignet.
  • Ich probiere immer zuerst Pearson's aus, und wenn das nicht funktioniert, probiere ich Spearman aus.
  • Können Sie weitere Faustregeln hinzufügen oder die soeben abgeleiteten korrigieren? Ich habe diese Frage zu einem Community-Wiki gemacht, damit Sie dies tun können.

ps Hier ist der R-Code, um die obige Grafik zu reproduzieren:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))
Contango
quelle
7

Ich stimme der Antwort von Charles zu, schlage aber (aus rein praktischen Gründen) vor, beide Koeffizienten zu berechnen und die Unterschiede zu untersuchen. In vielen Fällen sind sie genau gleich, sodass Sie sich keine Sorgen machen müssen.

Wenn sie sich jedoch unterscheiden, müssen Sie prüfen, ob Sie die Annahmen von Pearsons (konstante Varianz und Linearität) erfüllt haben oder nicht. Wenn diese nicht erfüllt sind, ist es wahrscheinlich besser, Spearmans zu verwenden.

richiemorrisroe
quelle
3
Als Maschinenlerner bin ich sicherlich kein Heiliger in Bezug auf statistische Korrektheit, aber die Überprüfung der Annahmen NACH der Durchführung des Tests scheint mir eine Irrlehre zu sein.
Steffen
7
@steffen Ich finde es in Ordnung. Eine Annahme der Regression ist, dass die Residuen normal verteilt sind. Wie würden Sie das überprüfen, bevor Sie die Regression ausführen?
Glen
1
@ Glen: In diesem Fall kann ich nicht. Wenn ich jedoch die Qualität verschiedener Modelle vergleiche, bevor ich den Test durchführe, ziehe ich es im Allgemeinen vor, die Annahme (z. B. ungefähr normalverteilt) zu überprüfen, um die Tendenz zu verringern, Annahmen zugunsten bestimmter Testergebnisse zu lockern. Nenne es Verhinderung eines Gedankentricks. Ich denke es ist nur ich;).
Steffen
1
@ steffen: du hast recht mit der ketzerei, aber wenn die beiden verfahren die gleichen ergebnisse liefern, dann ist es eine geschmackssache, die man benutzt, aber wenn sie nicht die annahmen überprüfen und wo sie scheitern, kann man oft nützliche einsichten in die daten geben. Persönlich benutze ich, wo immer möglich, Spearman, aber dies ist in meinem Bereich nicht üblich.
Richiemorrisroe