Ich habe eine Reihe verwandter Datensätze. Die Pearson-Korrelationen zwischen Paaren von ihnen sind typischerweise definitiv größer als die Spearman-Korrelationen. Das deutet darauf hin, dass jede Korrelation linear ist, aber man könnte erwarten, dass selbst wenn Pearson und Spearman gleich wären. Was bedeutet es, wenn zwischen der Pearson- und der Spearman-Korrelation eine bestimmte Lücke besteht und der Pearson größer ist? Dies scheint eine konsistente Funktion in meinen Datensätzen zu sein.
correlation
spearman-rho
pearson-r
John Robertson
quelle
quelle
Antworten:
Die Spearman-Korrelation ist nur die Pearson-Korrelation unter Verwendung der Ränge (Ordnungsstatistik) anstelle der tatsächlichen numerischen Werte. Die Antwort auf Ihre Frage ist, dass sie nicht dasselbe messen. Pearson: linearer Trend, Spearman: monotoner Trend. Dass die Pearson-Korrelation höher ist, bedeutet nur, dass die lineare Korrelation größer ist als die Rangkorrelation. Dies ist wahrscheinlich auf einflussreiche Beobachtungen in den Schwänzen der Verteilung zurückzuführen, die einen großen Einfluss auf ihre Rangwerte haben. Assoziationstests unter Verwendung der Pearson-Korrelation haben eine höhere Leistung, wenn die Linearität in den Daten gilt.
quelle
Die Pearson-Korrelation geht von mehreren Annahmen aus, damit sie genau ist: 1) Jede Variable ist normalverteilt; 2) Homoskedastizität, die Varianz jeder Variablen bleibt konstant; und 3) Linearität, was bedeutet, dass ein Streudiagramm, das die Beziehung darstellt, Datenpunkte zeigt, die sich symmetrisch um die Regressionslinie gruppieren.
Die Spearman-Korrelation ist eine nichtparametrische Alternative zur Pearson-Korrelation, basierend auf dem Rang der Beobachtungen. Mit der Spearman-Korrelation können Sie alle drei Annahmen zu Ihrem Datensatz lockern und Korrelationen ableiten, die noch einigermaßen genau sind.
Was Ihre Daten implizieren, ist, dass sie wahrscheinlich eine oder mehrere der genannten Annahmen wesentlich brechen, so dass sich die beiden Korrelationen erheblich unterscheiden.
Da Sie eine große Lücke zwischen den beiden Korrelationen haben, sollten Sie untersuchen, ob die Variablen Ihres Datensatzes innerhalb eines Streudiagramms normalverteilt, homoskedastisch und linear sind.
Die obige Untersuchung erleichtert Ihnen die Entscheidung, ob der Spearman- oder der Pearson-Korrelationskoeffizient repräsentativer ist.
quelle