Wann sollte ich jede dieser Methoden verwenden, um die Korrelation zu berechnen?

8

Ich benutze R für die Datenanalyse. R liefert eine corrFunktion zur Berechnung der Korrelation. Diese Funktion bietet drei verschiedene Ansätze / Algorithmen zur Schätzung der corrPearson, Spearman und Kendall. Wann sollte ich jede dieser Methoden anwenden? Welche Faktoren bestimmen, welche Methode angewendet werden soll?

asheeshr
quelle
Obwohl dies im Zusammenhang mit R steht, geht es in der Tat um den Unterschied zwischen drei statistischen Maßen. Ich würde sagen, auch migrieren.
Sean Owen
1
Diese Frage wurde bereits unter stats.stackexchange.com/questions/45897/… gestellt (hat aber noch keine Antworten erhalten). Unsere Website enthält umfangreiches Material zur Korrelation, insbesondere zum Vergleich der Pearson- und Spearman-Koeffizienten: siehe Suchergebnisse unter stats.stackexchange.com/… .
whuber

Antworten:

10

Der Produkt-Moment-Koeffizient von Pearson (Pearson-Parameter) misst die lineare Korrelation zwischen Variablen. Daher ist es angebracht, wenn Ihre vermutete Korrelation linear ist, was mit einem Diagramm visuell überprüft werden kann.

Der Kendall-Tau-Koeffizient (Kendall-Parameter) und der Spearman-Korrelationskoeffizient (Spearman-Parameter) sind Maß-Rang-Korrelationen. Die Korrelation zwischen den beiden Variablen muss also nicht linear sein. Die Spearman-Methode ist im Grunde die Pearson-Methode, wird jedoch auf die Ränge der Werte angewendet (der Rang eines Werts wird durch seine Position nach dem Sortieren der Werte angegeben). Die Kendal-Methode wird im Wesentlichen als Statistik in Form einer Ration zwischen der zusätzlichen Anzahl geordneter Paare und der Gesamtzahl der Paare erstellt. Da die Kendal-Methode als Statistik erstellt wird, kann sie auch im Rahmen des Hypothesentests mit allen Vorteilen verwendet werden (sie wird als Tau-Test bezeichnet).

Alle diese Methoden sind Instrumente, mit denen auf die Abhängigkeiten zwischen Zufallsvariablen geschlossen werden kann. Weitere Informationen finden Sie auf der Wikipedia-Seite zu Korrelation und Abhängigkeit

Rapaio
quelle
Stimmt es nicht auch, dass Spearman und Pearson auch für lineare Beziehungen identisch sein sollten? Wenn Sie also Zweifel haben, können Sie Spearman verwenden und sicher sein, dass Sie nicht abgeworfen werden, wenn die Korrelation nicht linear ist?
cwharland
1
Um ehrlich zu sein, weiß ich nicht, ob sie in linearer Beziehung gleich sind. Es ist sicher, dass Pearson in den Reihen Speerführer ist. Während der Umwandlung in Ränge passieren jedoch einige Dinge: Pearson wird robuster gegenüber Ausreißern, die Kovarianz wird unwiederbringlich verändert, Pearson enthält möglicherweise nicht unabhängiges Rauschen (möglicherweise von Störfaktoren erzeugt). Im Allgemeinen verwende ich Pearson für lineare Inferenz, Spearman, um zu überprüfen, ob es etwas anderes als Linearität gibt, plus für Ordnungszahlen (was nur für Spearman sinnvoll ist).
Rapaio
@cwharland Tatsächlich sind sie für lineare Beziehungen in der Regel nicht gleich. In korrelierten bivariaten Normalproben (die die von Ihnen vorgeschlagene lineare Beziehung aufweisen) liegt die Spearman-Korrelation typischerweise (sowohl im Durchschnitt als auch im Median ihrer Verteilung) näher bei 0 als die Pearson-Korrelation. Beide sind voreingenommen, aber der Pearson ist weniger voreingenommen.
Glen_b -State Monica