Was könnte große Unterschiede im Korrelationskoeffizienten zwischen der Pearson- und der Spearman-Korrelation für einen bestimmten Datensatz verursachen?

22

Der Pearson-Koeffizient zwischen zwei Variablen ist ziemlich hoch (r = 0,65). Wenn ich aber die Variablenwerte ordne und eine Spearman-Korrelation durchführe, ist der cofficient-Wert viel niedriger (r = .30).

  • Was ist die Interpretation davon?
user3671
quelle
5
Im Allgemeinen ist es eine gute Idee, ein Streudiagramm der Daten anzuzeigen, bevor ein Korrelationskoeffizient interpretiert wird.
Chl
Was ist Ihre Stichprobengröße?
Jeromy Anglim

Antworten:

37

Warum der große Unterschied?

  • Wenn Ihre Daten normal oder gleichmäßig verteilt sind, würde ich denken, dass die Korrelation zwischen Spearman und Pearson ziemlich ähnlich sein sollte.

  • Wenn sie sehr unterschiedliche Ergebnisse liefern, wie in Ihrem Fall (.65 versus .30), haben Sie vermutlich Daten oder Ausreißer verzerrt, und Ausreißer führen dazu, dass die Pearson-Korrelation größer ist als die Spearman-Korrelation. Das heißt, sehr hohe Werte für X können mit sehr hohen Werten für Y zusammen auftreten.

  • @chl ist genau richtig. Ihr erster Schritt sollte darin bestehen, das Streudiagramm zu betrachten.
  • Im Allgemeinen ist ein so großer Unterschied zwischen Pearson und Spearman eine rote Fahne, die darauf hindeutet
    • Die Pearson-Korrelation ist möglicherweise keine nützliche Zusammenfassung der Zuordnung zwischen Ihren beiden Variablen
    • Sie sollten eine oder beide Variablen transformieren, bevor Sie die Pearson-Korrelation verwenden
    • Sie sollten Ausreißer entfernen oder anpassen, bevor Sie die Pearson-Korrelation verwenden.

Verwandte Fragen

Siehe auch diese vorherigen Fragen zu Unterschieden zwischen der Korrelation von Spearman und Pearson:

Einfaches R Beispiel

Das Folgende ist eine einfache Simulation, wie dies auftreten könnte. Beachten Sie, dass der folgende Fall einen einzelnen Ausreißer betrifft, Sie jedoch ähnliche Effekte mit mehreren Ausreißern oder verzerrten Daten erzielen können.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Welches gibt diese Ausgabe

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Die Korrelationsanalyse zeigt, dass die Korrelation ohne den Ausreißer Spearman und Pearson ziemlich ähnlich ist und mit dem ziemlich extremen Ausreißer ziemlich unterschiedlich ist.

Die folgende Grafik zeigt, wie durch das Behandeln der Daten als Rang der extreme Einfluss des Ausreißers beseitigt wird, sodass Spearman sowohl mit als auch ohne Ausreißer ähnlich ist, während Pearson beim Hinzufügen des Ausreißers ganz anders ist. Dies unterstreicht, warum Spearman oft als robust bezeichnet wird.

Bildbeschreibung hier eingeben

Jeromy Anglim
quelle