Ich habe eine Korrelationsmatrix eines Datensatzes berechnet, der 455 Datenpunkte enthält, wobei jeder Datenpunkt 14 Merkmale enthält. Die Dimension der Korrelationsmatrix beträgt also 14 x 14.
Ich habe mich gefragt, ob es einen Schwellenwert für den Wert des Korrelationskoeffizienten gibt, der darauf hinweist, dass zwischen zwei dieser Merkmale eine signifikante Korrelation besteht.
Ich habe einen Wert zwischen -0,2 und 0,85 und dachte, dass die wichtigsten diejenigen sind, die über 0,7 liegen.
- Gibt es einen allgemeinen Wert für den Korrelationskoeffizienten, der für den Schwellenwert berücksichtigt werden sollte, oder ist er nur kontextabhängig von dem Datentyp, den ich untersuche?
Antworten:
Signifikanztests für Korrelationen
Es gibt Tests von statistischer Signifikanz, die auf einzelne Korrelationen angewendet werden können, die die Wahrscheinlichkeit angeben, eine Korrelation zu erhalten, die größer oder größer als die Stichprobenkorrelation ist, vorausgesetzt, die Nullhypothese ist wahr.
Der entscheidende Punkt ist, dass das, was einen statistisch signifikanten Korrelationskoeffizienten ausmacht, abhängt von:
Unter normalen Umständen, wenn Alpha 0,05 ist, unter Verwendung eines zweiseitigen Tests mit Pearson-Korrelation, und wenn Normalität mindestens eine angemessene Annäherung ist, ist der Hauptfaktor, der den Grenzwert beeinflusst, die Stichprobengröße.
cor.test
berechnet die statistische Signifikanz einer Korrelation in R.Schwelle von Bedeutung
Eine andere Möglichkeit, Ihre Frage zu interpretieren, besteht darin, zu berücksichtigen, dass Sie nicht daran interessiert sind, ob eine Korrelation statistisch signifikant ist, sondern ob sie praktisch wichtig ist.
Einige Forscher haben Faustregeln zur Interpretation der Bedeutung von Korrelationskoeffizienten angeboten, aber diese Faustregeln sind domänenspezifisch.
Multiple Signifikanzprüfung
Da Sie jedoch daran interessiert sind, signifikante Korrelationen in einer Matrix zu kennzeichnen, ändert dies den inferentiellen Kontext. Sie haben Korrelationen, wobei die Anzahl der Variablen ist (dh Wenn die Nullhypothese für alle Korrelationen in der Matrix wahr wäre, dann führen Sie mehr Signifikanztests durch Je wahrscheinlicher es ist, dass Sie einen Fehler vom Typ I machen. In Ihrem Fall würden Sie beispielsweise durchschnittlich Fehler vom Typ I machen, wenn die Nullhypothese für alle Korrelationen wahr wäre.k 14 ( 13 ) / 2 = 91 91 ∗ 0,05 = 4,55k(k−1)/2 k 14(13)/2=91 91∗.05=4.55
Wie @ user603 hervorgehoben hat, wurden diese Probleme in dieser früheren Frage ausführlich erörtert .
Im Allgemeinen finde ich es nützlich, wenn ich eine Korrelationsmatrix interpretiere, um mich auf eine übergeordnete Struktur zu konzentrieren. Dies kann auf informelle Weise erfolgen, indem allgemeine Muster in der Korrelationsmatrix betrachtet werden. Dies kann formal mithilfe von Techniken wie PCA und Faktoranalyse erfolgen. Solche Ansätze vermeiden viele der Probleme, die mit dem Testen mehrerer Signifikanzen verbunden sind.
quelle
Eine Option wäre Simulation oder Permutationstest. Wenn Sie die Verteilung kennen, aus der Ihre Daten stammen, können Sie diese Verteilung simulieren, wobei jedoch alle Beobachtungen unabhängig sind. Wenn Sie die Verteilung nicht kennen, können Sie jede Ihrer Variablen unabhängig voneinander permutieren. Dadurch erhalten Sie die gleiche allgemeine Randverteilung für jede Variable, wobei jedoch jede Korrelation entfernt wird.
Führen Sie einen der oben genannten Schritte (wobei die Stichprobengröße und die Matrixabmessungen gleich bleiben) einige Male (etwa 10.000) aus und betrachten Sie die maximale absolute Korrelation oder ein anderes hohes Quantil, das von Interesse sein kann. Dies gibt Ihnen die Verteilung aus der Nullhypothese, mit der Sie dann das Maximum Ihrer tatsächlich beobachteten Korrelationen (und der anderen interessierenden hohen Quantile) vergleichen können.
quelle
Sie können zeigen, dass der Standardfehler in der Pearson-Korrelation von zwei stochastisch unabhängigen Vektoren, die aus der Normalverteilung abgetastet wurden, , wobei die Länge des Vektors ist. Eine statistisch signifikante Korrelation zweier Vektoren hätte also eine Korrelation n c o r r > > n - 2n−2 n corr>>n−2
quelle