Ich lese gerade über Annahmen für Pearson-Korrelationen. Eine wichtige Annahme für den folgenden t-Test scheint zu sein, dass beide Variablen aus Normalverteilungen stammen; Wenn dies nicht der Fall ist, wird die Verwendung alternativer Maßnahmen wie des Spearman Rho empfohlen. Die Spearman-Korrelation wird wie die Pearson-Korrelation berechnet, wobei nur die Ränge von X und Y anstelle von X und Y selbst verwendet werden. Richtig?
Meine Frage ist: Wenn die Eingabevariablen in eine Pearson-Korrelation normal verteilt werden müssen, warum ist die Berechnung einer Spearman-Korrelation gültig, obwohl die Eingabevariablen Ränge sind? Meine Reihen stammen sicherlich nicht aus Normalverteilungen ...
Die einzige Erklärung, die ich bisher gefunden habe, ist, dass die Bedeutung von Rho möglicherweise anders getestet wird als die des Pearson-Korrelations-T-Tests (auf eine Weise, die keine Normalität erfordert), aber bisher habe ich keine Formel gefunden. Wenn ich jedoch einige Beispiele anführte, stimmten die p-Werte für rho und für den t-Test der Pearson-Korrelation der Ränge bis auf die letzten Ziffern immer überein. Für mich sieht das nicht nach einem bahnbrechend anderen Verfahren aus.
Alle Erklärungen und Ideen, die Sie haben könnten, würden geschätzt!
Nun, Sie haben damals die falschen Beispiele angeführt!
Vektorenρ
a
undb
haben eine gute, aber alles andere als perfekte lineare (Pearson) Korrelation. Sie haben jedoch eine perfekte Rangkorrelation. Siehe - für Spearman's ist es in diesem Fall nicht wichtig, ob die letzte Ziffer 8,1, 9, 90 oder 9000 ist (probieren Sie es aus!), Sondern nur, wenn sie größer als 8 ist . Das ist es, was einen Unterschied zwischen korrelierenden Rängen ausmacht.b
Im Gegensatz dazu , während
a
undb
perfekte Rangkorrelation hat, ist ihre Pearson Korrelationskoeffizient kleiner als 1. Dies zeigt , dass die Pearson - Korrelation nicht Ränge reflektiert wird.Eine Pearson-Korrelation spiegelt eine lineare Funktion wider, eine Rangkorrelation einfach eine monotone Funktion. Bei normalen Daten ähneln sich die beiden stark, und ich vermute, dass Ihre Daten aus diesem Grund keine großen Unterschiede zwischen Spearman und Pearson aufweisen.
Betrachten Sie als praktisches Beispiel Folgendes: Sie möchten sehen, ob größere Menschen mehr wiegen. Ja, es ist eine dumme Frage ... aber nehmen Sie einfach an, das ist es, was Sie interessiert. Jetzt skaliert die Masse nicht linear mit dem Gewicht, da große Menschen auch breiter sind als kleine Menschen. Das Gewicht ist also keine lineare Funktion der Größe. Jemand, der 10% größer ist als Sie, ist (im Durchschnitt) mehr als 10% schwerer. Aus diesem Grund verwendet der Body / Mass-Index den Würfel im Nenner.
Folglich würden Sie eine lineare Korrelation annehmen, um die Beziehung zwischen Größe und Gewicht ungenau wiederzugeben. Im Gegensatz dazu ist die Rangkorrelation in diesem Fall unempfindlich gegenüber den lästigen Gesetzen der Physik und Biologie; Es spiegelt nicht wider, ob Menschen mit zunehmender Körpergröße linear schwerer werden, sondern nur, ob größere Menschen (auf einer Skala höher im Rang) schwerer sind (auf der anderen Skala höher im Rang).
Ein typischeres Beispiel könnte das Likert-ähnliche Fragebogen-Ranking sein, beispielsweise Personen, die etwas als "perfekt / gut / anständig / mittelmäßig / schlecht / schrecklich" bewerten. "perfekt" ist so weit entfernt von "anständig" wie "anständig" von "schlecht" auf der Skala , aber können wir wirklich sagen, dass der Abstand zwischen den beiden gleich ist? Eine lineare Korrelation ist nicht unbedingt angemessen. Die Rangkorrelation ist natürlicher.
Um Ihre Frage direkter zu beantworten: Nein, p- Werte für Pearson- und Spearman-Korrelationen dürfen nicht unterschiedlich berechnet werden . Vieles unterscheidet sich sowohl konzeptionell als auch numerisch, aber wenn die Teststatistik äquivalent ist, ist der p- Wert äquivalent.
Zur Frage der Normalitätsannahme in der Pearson-Korrelation siehe dies .
Im Allgemeinen haben andere Leute das Thema parametrische und nichtparametrische Korrelationen (siehe auch hier ) und was dies in Bezug auf Verteilungsannahmen bedeutet, viel besser als ich ausgearbeitet .
quelle
cor.test(x, y, method = "spearman")
mitcor.test(rank(x), rank(y), method = "pearson")
. Diese Schätzungen sind unabhängig von den ausgewählten Daten identisch. Trotzdem danke! :)