Was bedeutet es, wenn die Spearman-Korrelation um einen bestimmten Betrag unter Pearson liegt?

12

Ich habe eine Reihe verwandter Datensätze. Die Pearson-Korrelationen zwischen Paaren von ihnen sind typischerweise definitiv größer als die Spearman-Korrelationen. Das deutet darauf hin, dass jede Korrelation linear ist, aber man könnte erwarten, dass selbst wenn Pearson und Spearman gleich wären. Was bedeutet es, wenn zwischen der Pearson- und der Spearman-Korrelation eine bestimmte Lücke besteht und der Pearson größer ist? Dies scheint eine konsistente Funktion in meinen Datensätzen zu sein.

John Robertson
quelle
Sehr ähnliche Frage mit toller Antwort hier
Colin T Bowers

Antworten:

14

Die Spearman-Korrelation ist nur die Pearson-Korrelation unter Verwendung der Ränge (Ordnungsstatistik) anstelle der tatsächlichen numerischen Werte. Die Antwort auf Ihre Frage ist, dass sie nicht dasselbe messen. Pearson: linearer Trend, Spearman: monotoner Trend. Dass die Pearson-Korrelation höher ist, bedeutet nur, dass die lineare Korrelation größer ist als die Rangkorrelation. Dies ist wahrscheinlich auf einflussreiche Beobachtungen in den Schwänzen der Verteilung zurückzuführen, die einen großen Einfluss auf ihre Rangwerte haben. Assoziationstests unter Verwendung der Pearson-Korrelation haben eine höhere Leistung, wenn die Linearität in den Daten gilt.

AdamO
quelle
1
Ich wusste, dass Spearman nur Perlen in den Reihen waren. Ich muss sehen, ob es auch andere Routen geben kann, die dies verursachen könnten, aber einflussreiche Schwanzbeobachtungen, die linearer korrelieren als der Großteil der Daten, aber die ihren Einfluss verlieren, wenn sie durch ihre Ranglisten ersetzt werden, würden definitiv das verursachen, was ich bin Sehen.
John Robertson
0

Die Pearson-Korrelation geht von mehreren Annahmen aus, damit sie genau ist: 1) Jede Variable ist normalverteilt; 2) Homoskedastizität, die Varianz jeder Variablen bleibt konstant; und 3) Linearität, was bedeutet, dass ein Streudiagramm, das die Beziehung darstellt, Datenpunkte zeigt, die sich symmetrisch um die Regressionslinie gruppieren.

Die Spearman-Korrelation ist eine nichtparametrische Alternative zur Pearson-Korrelation, basierend auf dem Rang der Beobachtungen. Mit der Spearman-Korrelation können Sie alle drei Annahmen zu Ihrem Datensatz lockern und Korrelationen ableiten, die noch einigermaßen genau sind.

Was Ihre Daten implizieren, ist, dass sie wahrscheinlich eine oder mehrere der genannten Annahmen wesentlich brechen, so dass sich die beiden Korrelationen erheblich unterscheiden.

Da Sie eine große Lücke zwischen den beiden Korrelationen haben, sollten Sie untersuchen, ob die Variablen Ihres Datensatzes innerhalb eines Streudiagramms normalverteilt, homoskedastisch und linear sind.

Die obige Untersuchung erleichtert Ihnen die Entscheidung, ob der Spearman- oder der Pearson-Korrelationskoeffizient repräsentativer ist.

Sympa
quelle
2
Sie denken wahrscheinlich an den zugehörigen Inferenztest mit dem t-Verteilung, nicht die beschreibende Maßnahme. Es wird jedoch in der Regel beschrieben, dass dieser Test andere Annahmen aufweist als die von Ihnen angegebenen. ZB bivariate Normalität, eine stärkere Annahme als einzelne Normalverteilungen. Bitte geben Sie Referenzen für Ihre Aussagen an.
Caracal
4
Falsch. Für die Schlussfolgerung der Pearson-Korrelation ist keine dieser Annahmen erforderlich. Man könnte eine krummlinige Beziehung zu heteroskedastischen, nicht normalen Daten haben, und der Test der Pearson-Korrelation (der der Inferenz auf einem linearen Regressionsmodell entspricht) kann den Trend erster Ordnung erkennen. Die Interpretation der Pearson-Korrelation als Stärke des Trends erster Ordnung gilt weiterhin. Es gibt nur wenige Umstände, unter denen der durch die Pearson-Korrelation gemessene Trend erster Ordnung für eine Analyse nicht ausreichend ist.
AdamO